大数据与因果关系 - hitir.hit.edu.cn/~sdzhao/big_data.pdf · •...

大数据与因果关系赵森栋

2014年11月6日北京信工所

大数据时代：相关还是因果？两派观点

一派观点：

• 大数据代带来的思维：知其然而不知其所以然

• 因果不靠谱，相关性靠谱

大数据时代：相关还是因果？两派观点

另一派观点：

• 普林斯顿大学发表了一篇论文，称用谷歌搜索词来预测

Facebook将在2017年丧失80%的用户。随后Facebook的数

据科学家马上发表博文反驳，说谷歌搜索词并不能代表实

际趋势，相关关系并不等于因果关系

• 2014年哈佛大学的David Lazer在Science发文质疑2009年发

表在Nature上的用google搜索关键词预测美国流感的研究

工作，因为google在2013年7月份的预测结果超出了实际值

的2倍。只关注相关不关注因果会出严重的问题。

提纲

文本上的因果分析

因果分析的必要性和重要性

因果关系定义

存在的问题

值得关注的研究问题

统计变量间的因果分析

因果关系定义(1/7)

定义1：如果某一现象或事件的发生或存在引起另一现象或事件的发

生或存在，这两个现象或事件间就具有因果关系。

休谟定义：如果两个对象在无限绵长的时间里总是先后出现，在空间

里总是接近。那么这两个对象间存在因果关系。

补充说明：

因果关系中的两个事件和现象有时间上的先后顺序。

如果不区分因果和相关，常常会把相关当成因果。

如果不区分原因和结果，常常会造成因果颠倒的谬误。西医的治疗手段

因果关系定义(5/7) 混淆因果和相关的例子

因果关系定义(6/7) 混淆因果和相关的例子

因果关系定义(7/7) 因果问题分析的层次

常识因果

浅层因果

深层因果

从每个人生成的含有因果逻辑的文本中直接抽

取或进一步推理

从观测的数据中使用统计分析方法和因果推断模型得到的因素之间的

因果作用

需要在结合多个浅层因果或者结合常识因果与浅层因果的基础上进行

推理得到的因果

因果分析的必要性（1/2）

• 因果与相关是两个不同的重要概念

• 无因果关系可能表现出虚假的相关性

– 张三和李四的手表上的时间

– 小学生的阅读能力与鞋的尺寸

– 每年溺水儿童和雪糕销量

– 公司的贷款数量和公司经营状况（易混淆）

• 因果关系也可能表现出虚假的独立性

– 练太极拳的人和不练太极拳的人平均寿命

• 相关性分析有时不可靠（存在辛普森悖论）

因果分析的必要性（2/2）辛普森悖论

合并表康复未康复康复率

吃药 20 20 50%

吃安慰剂 16 24 40%

在男性中情况康复未康复康复率

吃药 18 12 60%

吃安慰剂 7 3 70%

在女性中情况康复未康复康复率

吃药 2 8 20%

吃安慰剂 9 21 30%

从表中可知吃药的效果分别在男性和女性人群中都不如吃安慰剂，但是在总人群中的效果却比吃安慰剂好。结论：相关性分析有时不可靠

因果分析的重要性（1/3）

因果分析可用于控制和干预

• A先于B发生。

• A与B统计相关。如果不让B发生，干预A有用吗？

• 或许，有一个共同的原因C导致A和B的发生。

• 所以想要B不发生，只能干预C

C

A BA与B统计相关

• 几乎所有的相关关系背后都隐藏着深层的因果关系

因果分析的重要性（2/3）

三种形成A和B统计相关性的因果模型

文本上的因果分析（常识因果）

• 文本中的因果抽取

• 文本中的因果关系用于问答系统，UIUC的Girju

• 动词之间的因果关系并组成动词间的因果交互链，UIUC

的Girju

• 常识推理，USC的Gordon，

• 文本上的因果关系推理，BioNLP领域关注的重要问题

• Temporal Reasoning，UIUC的Dan Roth，Chengxiang Zhai

• 基于文本中因果关系的事件预测，Radinsky

文本中的因果抽取

从含有因果关系的句子中抽取表达因果的知识，组成因果对。例

如：

意义：

这种因果对问答中知识表示、知识简化存取和答案自动抽取都很有帮

助。

正确的抽取因果对能更好的理解句子的语义。

正确的抽取因果对能够更好的对句子进行复述。

有了因果词就能更容易的扩展到因果事件的抽取。

Financial stress is one of the main causes of divorce.

(stress, divorce)

文本中的因果抽取

• 一般方法：

The American Heart Association explains the damage that drinking alcohol can do to your heart

连线题

肚子饿

受风寒

尾气排放吃饭

南极冰川融化

空气污染

全球气候变暖

感冒

基于因果关系的事件表示学习

• 动机：通过大规模数据上事件之间的因果关系学

习事件的向量表示

• 应用背景：

– 根据因果事件之间的相似性预测原因事件可能的结果

事件

– 根据对大量相似的因果事件链条的聚合再抽象（或发

现典型实例），发现事件发展的因果模式或因果律

构建因果事件网络

• 如果把抽取出的每个事件都看成事件网络中的一个及节点，

会造成连接关系太稀疏，如何解决？

• 解决连接稀疏问题： – 在事件网络中增加抽象节点去表

征一类事件

– 浅色节点代表一类事件的抽象节点

– 虚线有向边代表抽象事件之间的因果

– 虚线无向边是具体事件隶属抽象事件

– 实线有向边是具体事件的因果关系

学习事件表示

• 两阶段学习，利用两种边：

– 根据抽象事件之间的因果有向边（虚线有向边）学习抽象事件的

表示。优化目标为：

• AE指抽象的结果事件，AC指抽象的原因事件，AC到AE有虚有向边

• AE’和AC’也都是抽象事件，无边相连

– 根据具体事件之间的因果有向边（实线有向边）、具体事件与抽

象事件之间的无向边（虚线无向边）学习具体事件的的抽象表示。

优化目标为：

' '

1 1min [D | AE M AC | | AE M AC |]

' ' ' ' ' '

2 2min [D | E M C| | E M C |] [D | C C | | C C |] [D | E | | E |]A A AE AE

统计变量间的因果分析

• 随机对照实验

– 随机化：屏蔽掉非研究变量对实验的影响

– 对照：分析因果

• 准实验设计

– 在观测数据上找到尽可能合理的控制变量对比组

– 倾向性得分匹配

– 双胞胎研究

• 虚拟事实模型：

– 哈佛大学统计系的Donald Rubin提出

• 贝叶斯网络（因果图）上的因果推断

– UCLA的Judea Pearl提出

随机对照实验在社会媒体上的研究

• Centola D. The spread of behavior in an online social network experiment.

Science, 2010, MIT

• 研究在社会网络结构对社会网络中行为蔓延的因果作用

• 方法： Centola等人邀请1540名志愿者并随机地将他们一对一的分配

到小世界特征的随机网络和高聚类的规则网络中的，并观察研究两种

不同网络下行为的传播规律

• Centola D. An experimental study of homophily in the adoption of

health behavior. Science, 2011, MIT

• 参与人员之间的相似性对健康行为传播的因果作用

• Centola创建了一个社交网络，在该网络中，参与者或是以随机

的方式（不具同质性的网络）或是基于他们的性别、年龄及身

体健康指数与他们的“伙伴”互联(让既具有同质性的特点)两

种方式构建网络。接着通过一名虚拟参与者邀请其健康伙伴在

日记中以写作方式的向不同结构的社交网络介绍了“饮食日志”

的想法。一旦某参与者报名加入这一饮食日记活动，就向他在

该网络中的所有好友发出加入活动的邀请。


• Lewis K, Gonzalez M, Kaufman J. Social selection and peer

influence in an online social network. PNAS, 2012, Harvard

University

• 研究在线社会网络上导致同质性的原因到底是社会选择还

是社会影响

• Lewis等人在一群大学生Facebook上超过四年的活动数据

中使用stochastic actor-based modeling（随机行为模型）设

置对比组，发现在音乐和电影上有相似品味的学生们相互

成为朋友的可能性更显著。


• Aral S, Walker D. Identifying social influence in networks

using randomized experiments. IEEE Intelligent Systems,

2011, MIT

• 研究同伴影响（peer influence）对同伴在某些产品使用上

的因果作用

• 用随机对照试验的方法从Facebook上的140万朋友在产品

采用上的同伴影响来识别同伴影响对某些产品使用上的因

果作用


• Muchnik L, Aral S, Taylor S J. Social Influence Bias: A Randomized

Experiment. Science, 2013, MIT

• 研究已有的用户评价对于后来者给出好评或坏评的因果作用，

发现“正面的社会影响往往会累积导致从众效应，而负面的社

会影响常常会被用户纠正而得到中和”

• 对新闻网站上的新闻评价进行事先控制（随机地进行好评或差

评），历时5个月这些评论之后被1000多万人次看过，其中又留

下了30多万次再评价。结果发现，与对照组相比，他们给予好

评会使下一个看到这条评论的用户给予另外一个好评的可能性

增加32%。坏评却没有影响。


• 我们写的每篇论文无非是在证明“因为…所以…”

– 因为model的改进所以取得了性能上显著地提高：那么我们最好在相同的

feature template和相同的测试集上与别人的方法做对比。别人还可能challenge

你“你在这个数据集上好不见得别的数据集上好”，那么如果你的数据集是

随机采样出来的，他还有什么话说？

– 因为feature提的好所以取得了性能上显著地提高：那么我们最好在相同的

model和相同的测试集上与别人的方法做对比。

– 因为使用了新的资源所以取得了性能上显著地提高：那么我们最好在相同的

model、相同的feature template和相同的测试集上与别人的方法做对比。

– 如果你要回答多个“因为…所以…”那么你就要设置多组对照实验

• 所有这些对“因为…所以…”的回答都在遵循或尽量遵循随机对照实

验的思想

随机对照实验与撰写科研论文（跑偏一下）

社会媒体上准实验设计方法实践

• 维基百科上共同编辑数和文章质量的因果关系

• 在线问答社区中高质量的答案出现不会导致答案贡献热度

的降低：

• 使用准实验设计的方法找到两组问题子集在所有特征相似的前

提下，一组是没有出现高质量答案，一组是出现了高质量的答

案，这两组新答案的贡献在统计上无显著差别。组块算法也验

证了这一结论

贝叶斯网络

• 由UCLA的Judea Pearl最早提出，目的是为了解决因果推

断问题。最后成为解决不确定性问题的普遍模型

• Directed Acyclic Graph (DAG)

节点是随机变量

边表示变量间的直接作用关系

Burglary Earthquake

Alarm

JohnCalls MaryCalls

贝叶斯网络

• 它是一个既含有因果语义又含有概率语义的模型（*）

• 贝叶斯网络的联合概率分布：P 𝑋1, … , 𝑋𝑖 =

𝑃(𝑋𝑖|𝜋(𝑋𝑖))𝑛𝑖=1

贝叶斯网络

既有因果语义又有概率语义：

• 贝叶斯网络中的节点代表随机变量

• 节点间的边代表变量之间的直接依赖关系即因果关系

• 根节点都附有一个概率分布

• 非根节点X所附的是条件概率分布

• 它用条件概率分布刻画了变量对其父节点的依赖关系

贝叶斯网络上的因果推断

• 非常利于直观的理解因果关系

• 把这种图形化表示和概率独立性理论结合，所以产生了因

果图（causal diagram），包含DAG上的D分割、do算子、

前门准测和后门准则

下雨喷水

湿草地

贝叶斯网络结构学习

• 大多数因果结构学习算法都有一个强假设：对所有A、B间

的因果推断，可以观测所有潜在直接或间接的共同原因

• 即不存在下列情况

隐变

量C

A B

隐变

量C

A B

隐变

量D

隐变量作为直接共同原因隐变量作为间接共同原因

• 贝叶斯网络G(V,E)上A∈V，B∈V间的结构学习就变成了

独立性检验（D-分割理论）：

– P(AB|C∈V-{A,B})？= P(A|C) P(B|C)

• IC算法、SGS算法、PC算法、 Grow-Shrink算法都属于这

一类

• 但是这种算法的前提是所有的潜在的共同原因都已被观测

到。存在隐性的共同原因却是不可避免的。FCI算法、

2013年提出的RCD算法、2012年提出的LCMLV（带隐变

量的线性无环模型）都是解决这个问题的尝试。

贝叶斯网络结构学习

因果分析中存在的问题和挑战（1/3）因果对识别

• 排除混杂变量的影响

• 那些变量对间是因果关系

• 哪个为因哪个为果（若无时序）

• p B p A B = p(A)p(B|A)

• 反映因果关系的函数判别函数：

若A→B则B = f . 且f . 不可逆，反之亦然

• 1、因果分析对观测数据要求高；

• 2、涉及的相关变量需要人为给出；

• 3、因果分析需要很多前提假设，如faithfulness和等价类

因果分析中存在的问题和挑战（2/3）因果分析模型的适用性

A→C→B；A←C←B；A←C→B

A与C不独立，B与C不独立，A ⊥ B|C

因果分析中存在的问题和挑战（3/3）社会媒体上的因果分析的特殊性

• 文本的随意性、多噪声

• 变量类型多

• 例如：导致人们购买产品的原因：

– 产品质量

– 所处的网络结构（同质性、人群组成）

– 广告效应

– 同伴形象力

值得关注的研究问题

未来研究方向：

• 文本中因果知识和因果事件的抽取、表示

• 贝叶斯网络的泛化能力

– 特定问题的适应性和泛化能力之间的斗争

• 基于因果分析的推荐系统

• 罕见事件预测（rare event prediction）

值得关注的研究问题贝叶斯网络的泛化能力

• 针对特定问题的贝叶斯网络

– 结构由专家给出

– 需要对问题本身的深刻理解

– 泛化能力差

• 特定结构的贝叶斯网络

– Naïve Bayes Net

– TAN(Tree Augmented Naive Bayes)

– HNB(H idden Naive Bayes)

Naïve Bayes Net

X2 X3 Xn-2 Xn-1 Xn X1

Class

(Y)

…

TAN(Tree Augmented Naive Bayes)

X2 Xn-2 Xn-1 Xn X1 X3

Class

(Y)

…

HNB(Hidden Naïve Bayes )

X2 X3 Xn-2 Xn-1 Xn X1

Class

(Y)

…

XH1 XH2 XH3 XHn-2 XHn-1 XHn

值得关注的研究问题基于因果分析的推荐系统

• 代替用户评价、过滤它从不知道的东西

• 主流方法：协同过滤

• 贝叶斯网络用于推荐系统的合理性：

– 结合先验知识或背景知识与样本信息（重复推荐问题）

– 结合因果语义与概率语义

– 对于过拟合的抵抗：处理不完备数据、虚假相关性

• 应用实践：

– Yang等人使用基于贝叶斯网络的协同过滤算法，提出了一个适用于社

交网络的推荐系统

– Beutel等人利用大量的用户对电影的评分数据把用户A和B之间对同一

电影评价的协同关系归约到一个含有隐变量的贝叶斯网络学习问题上

• 罕见事件是指一种发生概率很低的事件，也可以叫做黑天鹅事

件

• 例子：

– 公路交通事故

– 网络欺诈和入侵行为

– 信用卡诈骗行为

– 社会话题爆发

– 重大疾病

• 目前的方法：多示例学习算法、基于规则的方法、基于逻辑回

归的方法、基于采样的方法、代价敏感的学习、Boosting算法、

基于分割的算法、Log-linear模型

值得关注的研究问题罕见事件预测（rare event prediction）

• 显著特性：

– 极大的稀疏性

– 不确定性

• 稀疏性决定的基于相关性分析的方法必然失效，因果分析

更合理

• 不确定性决定了贝叶斯网络的天然优越性

值得关注的研究问题罕见事件预测（rare event prediction）

参考文献

• 赵森栋,刘挺.因果关系及其在社会媒体上的应用研究综述.软件学

报,2014,25(12):2733-2752. http://www.jos. org.cn/1000-

9825/4724.htm

Thanks Q&A

大数据与因果关系 - hitir.hit.edu.cn/~sdzhao/big_data.pdf · •...

Documents