相关性与因果性有什么区别与联系
相关性vs因果性
写在前面且没用的话
个人觉得这是个看似简单却又意义深刻的问题,或许不少人可以多少了解两者的关系,当然也有不少人仍然困惑两者之间的关系,但是如果刨根问底的来说这绝对是个棘手的问题, 抑或这可以直接就是个世纪难题!
当然之所以说这个问题很难,其实并不是因为这两个概念各自都很难, 比如“相关性”这个概念就很简单,因为这是个纯数学的概念,本来这就是个人为定义的概念,既有明确的数学表达,又有严格的计算方法,所以相信对于大多数但凡学过一点现代数理统计的小朋友大朋友们来说都不太会有问题。
这个难点其实主要在于这个“因果性”。
因果性这个概念很难,为什么?因为它本质是个哲学概念。一说到哲学,自然是这个难度就陡然上升,一般人的确很难搞明白。
可是这个很难的哲学概念却又对于人类来说非常重要,因为我们人类生活的方方面面都需要这个概念。
先说哲学,虽说这个这个因果的讨论还赶不上灵魂三问,“我是谁”, “我从哪里来”,“我要到哪里去”,那么火爆,但是从亚里士多德到休谟,人类的智者们都在寻找着因果性的真谛。
再说宗教, “种善因,得善果”,“众生畏果,菩萨畏因”,“因果报应”等等,都在强调和宣扬一种对于人生的因果关系的理解。
最后说日常生活,比如这段文字写到这里,已经出现了多少个因为所以了呢?我们生活的每一天,不,每一个小时,或许都离不开这种因果构建的逻辑世界吧!
虽说一般意义下,刚才提到的灵魂三问的前两问跟因果关系不大,但是第三问的弱化版却是与因果关系紧密。“我要到哪里去?” ——> 因为明天,“我想要去哪里?”,“我想要做XXX”……, 所以, “我今天要做YYY”。
总而言之,言而总之,因果这个概念对于人类来说真的很重要。
“趋利避害”是人类基于本能的追求,而作为其最核心的工具其实就是这个“因果性”。人类希望通过对于世界的观察,建立因果性,从而指导自己的日常生活。
从一开始的打猎,如何可以打到更多的猎物,聪明的人类分析得到各种因素对于最终获得的猎物的影响,构建出“更好的工具”可以获得更多的“猎物”这期间的因果关系。而依赖这个构建得到的因果关系,人类才得以努力创造更好的工具,从而实现获得更多猎物的愿望。
又比如,因果轮回,其是一个工具性的概念。今生的苦痛,已然无望,若有来生,愿其可以美好,靠着一个因果性概念,比如佛教的,“种善因,得善果”,一下子连接了过去与未来, 今生的苦,全因是前世的孽障,若要来世的福,就需今世的善。
“因”的发生/产生可以(一定程度上)导致“果”的发生/产生,这就是通俗意义下的因果性!
“What?”, “我还是不太清楚什么是因果性!”,“这样的因果性如何才能帮助人类的呢?”,“相关性去了哪里?”。
相关性: 一个刻画因果关系的工具1.0版本
人类善于总结规律,而这种规律就是因果的一部分。这种总结虽然跌跌撞撞,但是某种意义上来说,这种总结帮助了人类一步一步取得了今天的所有文明与成就,比如前者衍生出的科学的方法论,后者成就了各种宗教的基石。
宗教的总结方法各种各样,由于认知有限这里就不赘述了,但是对此对应的科学范式的总结却可以仔细来说说。
回到刚才简单的打猎的例子, 聪明的人类在获得了“更好的工具”可以获得更多的“猎物”这期间的因果关系之后,开始思考更高的版本的问题,即这种因果关系的强弱,毕竟不光是更好的工具可以获得更多猎物,更快的奔跑,更强的力量等等都可以成为“更多猎物”这个果的因。毕竟人类的时间有限,经历有限,所以不得以需要找到一些强相关性的努力方向!
想要了解强弱,那么自然我们就需要对因果性进行量化处理。这种处理如今看来显而易见,可是在人类对因果性的认识发展中却并不容易。直到19世纪,有个叫Karl Pearson的人提出了一个叫“相关性”的东西去刻画因果关系,用严格的数学语言将“因果性”从哲学宗教等等其他各种概念的泥潭中拽出来,将其固定在纯客观纯定量化的考察面,使其可以被步骤化的可操作的唯一计算得到,从而构建了一个某种意义下可以量化因果关系的方法论世界。
在Pearson的理论中最为我们所熟识的就是这个相关系数,即两个变量的协方差除以其标准差的乘积。 $$ \rho_{X,Y}= {\mathrm{cov}(X,Y) \over \sigma_{X}\sigma_{Y}} ={E[(X-\mu_{X})(Y-\mu_{Y})] \over \sigma_{X}\sigma_{Y}} $$ 这个东西很高明吗?不,看上去表达式挺简单呀!
这个东西很简单吗?不,这个式子给出来两个变量直接相关性的量化表示!
简单的来说,分子是两个变量的协方差,而分母是两个变量各自的标准差。当然这还是个非常数学化的理解,再朴素一点说,能不能在朴素一点说呢?
为什么Pearson相关系数要长成这个样子
熟悉现代统计学的小朋友大朋友或许知道,这个世界在某种意义下,可以由均值和方差(也就是标准差的平方)所刻画。前者描述的是平均水平,后者描述的则是其波动水平(即距离均值的波动)。
回想一下,原先我们直观对于“相关性”理解,不就是A变化波动,B也会相应的变化波动嘛,对吧?而这个所谓的量化是不是应该看, A变化波动很多,但是B变化波动只有一点点,这样的结果自然是弱相关性,反之,A变化波动一点点,B可以有很大的变化波动很大,那则是强相关性。
按照这个思路,那么这个表达式不就可以是 $$ \Delta B / \Delta A $$ 或者是 $$ \Delta Var(B) / \Delta Var(A) $$ 这样的刻画,可不可以呢?这种类似与导数的刻画的确也有用,可是其中的问题是有一大堆的。
比如公式(2)这种导数的刻画,其本身是将A和B视作了一个个具体的数值,需要多次计算,关键是对于一组数据来说,这个值可能千差万别!
比如公式(3),这里虽然是将A和B视作了随机变量(至于什么是随机变量,请参见,随机变量和非随机变量有什么区别呢? - 蓦风星吟的回答 - 知乎 https://www.zhihu.com/question/499127693/answer/2478183646 ),但直接的观察就是发现,其结果随着A与B的量纲变化而变化。比如,B是10万量级的数字,而A是1千量级的数字,那么最终这个值一定会很大,对吧,如果不同量纲变量之间想要比较会非常的麻烦。
另外原先我们所说的A与B相关,那么B必定也与A相关。更进一步,如果A与B之间相关的强度必然与B与A之间的相关强度是 一样的。而上述这种类似与导数的定义方法无法保证这种对称性。
那有没有办法可以避免这些缺点的定义方式呢?
有,那就是将A和B联合起来视作是随机变量,其联合起来的波动情况(协方差)对于各自的波动(各自的方差)占比,即公式(1)中给出的Pearson的相关系数的定义方式!这样的定义方式完美解决了刚才文中提到的几个大问题:
- 定义基于随机变量而非常数
- 其计算结果不受量纲影响,上下的量纲会被抵消(根据一些数学计算还可以发现其结果在-1和1之间),因而可以对不同组变量的相关性进行比较
- 结果对称,因为在分子里面A与B联合起来的波动情况(cov(A, B))与B与A联合起来的波动情况(cov(B,A))结果是一致的,而在分母中则是完全一致。
正是Pearson这种朴素但也精妙的相关性刻画方式,让统计学产生了第一次大的发展。也正是有了这种刻画方式,才让后继者Fisher在量化不确定性与随机实验中深入探索,从而奠定了当代的统计学。
当然这都是后话,如文中前面所提到,真正成就这种相关性概念的其实是其与因果性的关系!
因果性的表述:观察,干涉和反事实
为什么相关性可以被用来刻画因果性?
通俗意义下,对于相关性,我们之前提到:
A变化波动,B也会相应的变化波动
而因果性,我们之前也谈到的:
“因”的发生/产生可以(一定程度上)导致“果”的发生/产生
那么仔细想来,在某种意义下,将“因”的发生/产生视作是A的变化波动,而“果”的发生/产生视作是另一个随机变量,那么这样因果性是不是也能用相关性来刻画呢?
或者更严格来说,将因视作是一个随机变量,而果视作另一个随机变量,这一组随机变量之间相关性在一定程度上是不是可以反映这个复杂的因果性在数值上意义呢?
答案是肯定!
这个世界太复杂,但凡是希望被应用于实际的理论都需要对问题进行简化,而相关性对因果性的这种特殊化处理,加之一整套的方法论,使得其可以被广泛应用于我们生活的方方面面!同时,基于这一整套的方法论,构造出来的就是所谓的causal inference,比如,你可以构建各种因子模型,依靠计算相关系数,从而得知两个交易量这个“因”会不会成为明天股票价格走势的“果”;依靠各种统计检验, 去严格化的检测是否存在相关性;这样的例子太多太多了。
用相关性来刻画因果性有没有潜在的问题?
有,当然有,不然为什么我们不说相关性就是因果性呢?
之前就提到, 人类真正想要孜孜不全探索的其实因果性,但是受限于复杂世界的种种,我们不得已才需要简化各种条件,试图用相关性来刻画因果性。也正是因为这种近似的刻画, 必定会产生误差甚至是谬误。
其潜在问题主要集中在一下几点:
- 相关性对于因果性的刻画仅仅停留在数值层面,因果需要有实际或者潜在的联系,而数值不需要。 给你两组数值,你总能计算出一个相关性系数,这个值可大可小,而这两组数值可能是来自与两个完全没有任何关联的随机变量。
- 相关性是对称的,而真正的因果性是单项。A作为因可以导致果B,并不意味着或者多数情况下不意味着,B作为因可以倒是果A。这就是,日出导致鸡鸣,我们会说日出是因,鸡鸣是果。如果反过来,则非常可笑。
- 相关性依赖数据,数据源于观测,而因与果在很多情况下不可观测。或者更确切的说就是你所获得观测数据只不过是其中一小部分,而另外的各个部分都无法被观测。
正是因为这里相关性的种种潜在问题但是却非常实用好用,所以有些学者认为,在历史的长河中,统计学家们如何在慢长的选择与发展中,错过causal inference真正应该走的道路,比如大名鼎鼎的Judea Pearl,图灵奖得住,贝叶斯网络之父,前半生致力于用贝叶斯思想将相关性概念推向巅峰,后半生孜孜不倦于推翻相关性寻求真正的因果性刻画方式!
因果性刻画2.0 — 观测Observation,干涉Intervention与反事实counterfactual
考虑到相关性对于因果性刻画的种种问题,目前的学界都在试图通过其他的方式来建立对于因果性的刻画,其中比较主流的有:
- Potential Outcome model, 来自于Neyman, Rubin and Holland
- Structural Causal Model (SCM),来自于Judea Pearl
两者殊途同归,所以在多数意义下个甚至是等价的,但是各种侧重,详细可以直接观看,Pearl的博客。
http://causality.cs.ucla.edu/blog/index.php/2012/12/03/judea-pearl-on-potential-outcomes/
这里暂时用Pearl的表述来叙述下面的内容。这里Pearl给因果刻画提出了三个阶段理论,即
- 观测Observation
- 干涉Intervention
- 反事实counterfactual
观测其实很好理解,无论是因还是果,在现实意义下依赖科学的方法论都是需要观测的。 观测很重要,因为现实中的不可观测或者对于因或者是果的不完全观测会带来我们对于causal inference的错误。
干涉其实是个好理解但是很难表述的概念,因而Pearl倾尽心血的引入一套do operator 与do calculus来表述问题以及研究问题。 基于相关性的概念,现代统计学其实关注的一致都是条件概率,P(A|B),但是现实真正的刻画应该是,P(A|do(B))。前者一般的条件概率仅仅是基于seeing,而后者才是真正进行干预的,故而两者完全不相同。举个例子来说,对于下雨地湿这个因果事件,我们考虑是应该是P(地湿|do(下雨)),而非P(地湿|下雨)。
最后一个是反事实counterfactual,这也是个最难理解的部分。 比如一个药物实验,给患者A1,A2,A3……都吃了药物T,然后我们可以记录其后续病情的走向。用刚才的do语言来描述,即刻画P(A|do(T))。严格意义下,想要验证该药物T是否有效,真正的方式应该是比较P(A|do(T)) 与 P(A|undo(T))两者的显著性差异。但是现实却是,对于A1这个具体的患者,在当下只会存在给药T和没有给药T两种状态的中的一种,即P(A1|do(T))与P(A1|undo(T))只会有一种能够被观测到,所以一个是事实,另一个就是反事实。或许你会说,为什么一定要都是A1呢?因为严格意义下,不存在两个身体状况一模一样的病人,甚至只要时间不一定了,同一个病人都会有不同的身体状况,因而其对药物T的反映也可以不一样。
反事实的概念其实非常有用,毕竟反事实的推断可以用来预测无法进行实验或者说是实施了无法实施的干预后产生的结果。当然具体到SCM里面它甚至还可以用来做inference哦!详细内容这就需要好好学习Pearl的textbook [2].
当然这里面很多理论概念仍然存在着诸多争议,但是不可否认的是,用相关性刻画因果性肯定是不够的。
因果性与大数据时代
Data are fundamentally dumb. You’re smarter than your data. – Judea Pearl
其实这个是一直都有争议的地方,毕竟最近一些年Judea Pearl一直都在对给过热的万物皆可深度学习/机器学习的时代泼冷水,毕竟这年头主要的这些工作都是在学习获得其相关性,而非真正的因果性。
如Pearl在[1]以及其博客中强调的,数据永远并不能帮助你确认因果性,再大的数据都没有用,当然若是因果性确认后,数据的确可以帮助快速量化得到其因果性的估计。其实两者各有意义,因果模型的意义就在于可以构建受控于人类的架构以及其严谨的描述语言,而数据导向的模型能做的就是确认这种架构的正确性和可用性。
Reference
[1] Pearl, Judea, and Dana Mackenzie. The book of why: the new science of cause and effect. Basic books, 2018.
[2] Pearl, Judea. “Models, reasoning and inference.” Cambridge, UK: Cambridge University Press 19.2 (2000).