主页 > 新闻 > 【时讯】关联性 ≠ 因果性，用图的方法打开因果关系

【时讯】关联性 ≠ 因果性，用图的方法打开因果关系

来源：人民时评网作者：史承泽更新时间：2021-02-27 20:51:21 阅读：

本篇文章3422字，读完约9分钟

从github中选择

作者: david salazar

编辑:陈萍，魔王

机器学习的做法是预测的有力工具，但很多行业的工作和研究都重视因果关系的讨论。关联性不意味着因果关系，如何识别因果关系？

david salazar发表了一系列介绍因果关系的博客。在以前的副本中，我们将因果关系定义为介入分布( interventional distribution )，并介绍了识别因果关系的两种策略(后门标准和前门标准)。但是，这些准则并不适用于所有的因果关系。

那么，通常给定因果模型和不完全的度量集，如何明确因果关系是可以识别的呢？

本文提供了以下答案:利用c-component ( confounded component )概念开发的“图标准”( graphical criterion )，在多个实例上进行演示。

马尔科夫模型

得到因果模型中所有变量的主值时，该因果模型为马尔可夫模型。在这种情况下，调整公式( adjustment formula )是识别策略:如果x、pa(x )的父代中存在主值，则因果关系x→y都可以识别。

那么，如果你没有注意到x的父母呢？

半马尔可夫模型

如果没有注意到的变量在图中有两个子项，则不适合马尔可夫属性。这种情况下，我们不一定能采用调整式。例如，如果没有注意到x的父母，则不能将其作为识别策略。但是，也许可以采用后门和前门的指南。

让我们看看相关的例子。在以下示例中，双向虚线显示了变量之间的“隐藏公共原因”。 u表示所有的未计量变量，v表示所有注意到的变量。

为了明确x对所有其他观测变量v的因果关系，必须从关注的介入前概率推测介入后的概率p(v|do(x ) )。

记住这里的因果模型和概率模型。特别是，这些会导致联合概率分布的分解。但是，在包含没有注意到模型的拥挤因素( confounder )的情况下，为了得到观测变量的联合概率分布，需要将它们边缘化。

在这种情况下，观测值的分解如下。

假设p(v|do(x=x ) )表示介入，可以截断上述公式，因此不需要计算x的概率。

p(v|do(x ) )可以用观测变量表示吗？首先，您必须了解confounded component。

confounded component

请注意，在这两个表达式中，没有注意到的拥挤因素将注意到的变量分为不相交的组。只有当两个变量通过双向路径连接时，才会分配给同一组。在每个组中，s_k被称为confounded component ( c-component )。在这种情况下，存在两个c-component，发生两次因数分解( c-factor )。

【时讯】关联性 ≠ 因果性，用图的方法打开因果关系

观察到在介入所有其他变量的情况下，各个( c-factor) q_k可以解释为s_k中变量的介入后分布。共同观测分布可以表示为c-factor的乘积:

相反，如果对q_1的p(x|u_1)进行边缘化，则可以在q_1、q_2中定义p(v|do(x ) )。

因此，p(v|do(x ) )是可以识别的，a )我们可以根据介入前的概率计算介入后的概率q_1、q_2为前提的b )从估计的q_1中边缘化x，计算q_1^x。

实际上，tian和pearl的研究“ageneralidentificationconditionforcausaleffects”表示各c-factor是可以识别的。因此，计算p(v|do(x ) )的唯一条件是“当然且只能用q_1^x识别”。在这种情况下:

因此，通过合计x的值，可以将x从q_1边缘化。

最后，对p(v|do(x ) )进行如下估计。

识别因果关系的共同标准

首先，对于具有双向路径的图，请观察通过分割c-component和各自的c-factor方法，可以分解联合概率分布

另外，请注意，介入x生成的截断分布可以用c-factor表示。

在上式中，从因数分解中删除x时，q_x^x是x位置的c-factor。因此，如果能识别q_x^x，也能识别p(v|do(x=x )。

事实上，根据tian和pearl的研究，只有在不存在将x连接到其孩子的双向路径(仅具有双向边缘的路径)的情况下，才能识别q_x^x。因此，为了明确p(v|do(x=x )是否可以识别，可以接受以下测试。

另外，只有在没有将x连接到其孩子的双向路径的情况下，p(v|do(x=x )才能识别。

观察到如果p(v|do(x=x ) )可以识别的话，p(y|do(x=x ) )也可以识别。因此，这个标准能够明确p(v|do(x=x )是否不能识别。如果假设只对单一变量y的因果关系感兴趣，那么只考虑y的祖先变量的子图，就可以简化问题。

直观地理解

如何直观地理解认识性测试？识别性的关键不是阻止x和y之间的后门路径，而是阻止x及其任何一个孩子(即y的祖先)之间的后门路径。因此，通过切断这些路径，可以明确相关的哪个部分是虚假的，它们是真正的因果关系。

接下来，让我们看看应用实例。

例1

前面提到的例子。为什么能识别呢？本例中的所有其他变量都是y的祖先，在这种情况下，不能简化问题。因此，必须确认x及其子代之间是否有双向路径。

tidy_dagitty(example，layout = "nicely "，seed=2)% >； %node_descendants("x")% >； % mutate ( linetype = if _ else ( direction = = "-& gt；" )、" solid "、" dashed")) %>； % ggplot(aes(x = x，y = y，xend = xend，yend = yend， color = descendant ) + geom _ Dag _ edges ( AES _ cap ) edge _ linetype = linetype ) + geom _ Dag _ point ( ) + geom _ Dag

【时讯】关联性 ≠ 因果性，用图的方法打开因果关系

假设x和它的孩子之间没有双向路径，那么x的因果关系是可以识别的。

例2

non_identifiable_example <； - dagify(x ~ z、x~z、x~y、w ~ x、w~z、y~z、y~z )

在这个例子中，为了明确因果关系是否可以识别，需要找到x和它的孩子之间的双向路径。否则可以识别因果关系。

tidy _ Dag itty ( non _ identifiable _ example，layout = "nicely "，seed = 2) %>； %node_descendants("x")% >； % mutate ( linetype = if _ else ( direction = = "-& gt；" )、" solid "、" dashed")) %>； % ggplot(aes(x = x，y = y，xend = xend，yend = yend，color = descendant ) + GEOM _ DAG _ edges ( AES _ CP )

【时讯】关联性 ≠ 因果性，用图的方法打开因果关系

x和w(x的孩子之一)之间存在通过z的双向路径，根据上述图的基准可以观察到因果关系无法识别。

例3

third_example <； - dagify(z1 ~ x + z2、x ~ z2、x ~ z2、x~y、z2~y、z3 ~ z2、x~z3、y

和上一个例子一样，在这个例子中，必须在x和它的孩子之间找到双向路径。

tidy_dagitty(third_example，layout = "nicely "，seed=2)% >； %node_descendants("x")% >； % mutate ( linetype = if _ else ( direction = = "-& gt；" )、" solid "、" dashed")) %>； % ggplot(aes(x = x，y = y，xend = xend，yend = yend，color = descendant ) + GEOM _ DAG _ edges ( AES _ CP )

【时讯】关联性 ≠ 因果性，用图的方法打开因果关系

观察到x及其y以外的唯一的孩子( z1 )没有双向路径。因此，可以识别因果关系。

识别性的必要条件是什么？

关于识别性，本论文中提到的测试是充分的条件，但不是必要条件。那么，存在充足条件吗？答案是肯定的。 pearl和shipster(2006 )讲述了算法。扩展本论文的想法，根据介入前的概率返回因果关系的推测值。完全等于pearl的do-calculus。

在r语言中，可以使用causaleffect包实现此算法。如果将此用于第一个示例，则

first_example_igraph <； - graph.formula(x -+ z_2，z_2 -+ x，x -+ z_1，z_2 -+ z_1，z_1 -+ y % set.edge.attribute (“描述”，index = c ( 1，2，5，6 )，“u")ce <； - causal.effect(y = "y "，x = "x "，z = null，g = first_example_igraph

【时讯】关联性 ≠ 因果性，用图的方法打开因果关系