• 工作总结
  • 工作计划
  • 读后感
  • 发言稿
  • 心得体会
  • 思想汇报
  • 述职报告
  • 作文大全
  • 教学设计
  • 不忘初心
  • 打黑除恶
  • 党课下载
  • 主题教育
  • 谈话记录
  • 申请书
  • 对照材料
  • 自查报告
  • 整改报告
  • 脱贫攻坚
  • 党建材料
  • 观后感
  • 评语
  • 口号
  • 规章制度
  • 事迹材料
  • 策划方案
  • 工作汇报
  • 讲话稿
  • 公文范文
  • 致辞稿
  • 调查报告
  • 学习强国
  • 疫情防控
  • 振兴乡镇
  • 工作要点
  • 治国理政
  • 十九届五中全会
  • 教育整顿
  • 党史学习
  • 建党100周
  • 当前位置: 蜗牛文摘网 > 实用文档 > 公文范文 > 因果推断的Lord,悖论解析

    因果推断的Lord,悖论解析

    时间:2023-02-23 09:40:05 来源:千叶帆 本文已影响

    程开明 程 灿

    (浙江工商大学 统计学院,浙江 杭州 310000)

    因果关系探究是人类认识自然与社会的重要手段,哲学界很早就对因果关系进行了讨论,但真正可操作的因果概念却源于统计学。Fisher(1935)提出随机化实验,使统计学理论从相关性分析扩展到因果性考察[1]。随机化实验是在无法完全控制一些重要自变量或控制变量时,让随机机制来决定干预变量的分配,以获得正确的因果效应。然而,在实际应用中随机分配通常较困难,甚至不可行,往往只能依据观测性数据进行因果推断,容易造成统计悖论。

    基于非随机分配的观测性数据,通过比较群组差异来考察变量关系是通常做法。然而,即使以同一观测数据为研究对象,不同的模型假定下若引入第三变量作为校正因素,研究者感兴趣的双变量关系可能增强、减弱甚至逆转,由此产生一些悖论如Simpson 悖论、Lord 悖论等。理解这些悖论的内涵及成因有助于洞察诸多研究的争议与矛盾之处,进而识别与避免数据分析中的一些陷阱。Simpson 悖论为大家所熟悉,学界对其表现及成因进行了大量探讨,而有关Lord 悖论的文献并不多,国内尚未见到系统阐述。鉴于此,本文力图对因果推断中Lord 悖论的内涵、成因等进行解析,得到若干有意义的启示,以避免因悖论引起的因果推断谬误。

    (一)Lord 悖论的由来

    Lord 悖论由美国教育测试服务机构(Educational Testing Service,ETS)的统计学家罗德(Frederic Lord)于1967 年提出,认为在使用统计方法进行组间比较时,因变量的差异可能由未被观测到的变量差异所引起,如果不排除这种可能性,往往出现解释上的悖论问题[2]。为简单明了地描述这一问题,Lord 构造了一个假想案例:一所大学想研究食堂提供的饮食对学生体重的影响以及影响的性别差异,为此收集各种类型的数据,特别是记录每个学生1963 年9 月和1964 年6 月的体重数据。学年结束时,两位统计学家对这些数据进行独立审查,并基于性别分类分别采用不同的统计方法考察食堂饮食对学生体重的影响,却得到完全相反的结论:第一位统计学家认为食堂饮食对学生体重没有任何影响,且不存在性别差异;
    第二位统计学家则认为食堂饮食对学生体重产生正向影响,且对男生体重增加的影响明显强于女生,即存在显著的性别差异。

    第一位统计学家采用一种相对简单的方法,先计算男生和女生入学时的平均体重,然后计算入学一年后的男、女生平均体重,最后将两组数据进行对比。如图1 所示,横轴表示1963 年9 月入学时的体重X,纵轴表示1964 年6 月放假前的体重Y,男、女学生体重的散点图分别用m 和f 标出[3]。从个体看,入学一年后绝大多数学生的体重均有变化,但从平均体重看,男生前后的平均体重均为150 磅(图中右上方的黑点),女生前后的平均体重均为130 磅(图中左下方的黑点)。因此,第一位统计学家认为食堂饮食对学生体重没有产生影响,也不存在性别差异。

    图1 Lord 悖论示意图

    第二位统计学家采用相对复杂的方法——协方差分析(Analysis of Covariance,ANCOVA)。假定男生、女生的最终体重对初始体重回归直线的斜率基本相同,且在男生、女生子群具有相同初始体重频率分布的基础上,构建一个线性回归模型,既控制个体入学时的体重,又考虑性别差异,模型形式为:

    式(1)中,Gi表示个体i 的性别,男生取值为1,女生取值为0;
    Xi是个体i 入学前的体重;
    Yi是个体i 入学一年后的体重;
    系数βg反映了男、女生之间的差异。通过最小二乘法拟合上述回归模型,等价于分别对男生、女生拟合两条平行的回归直线。如图1 所示,两条实线的斜率βx相等但截距不同,截距之差就是回归系数g。因此,第二位统计学家认为在男、女生初始体重差异适当限定的条件下,食堂饮食对学生体重产生正向影响,且男生体重的增加要明显多于女生。

    根据协方差分析的一般线性假设,两位统计学家的结论显然都正确,但为什么会相互矛盾呢?解释这一问题的基本前提是不存在不可控制的先验差异,而Lord(1967)认为对这类观测性数据的研究,并没有逻辑或程序能够为组间不受控制的先验差异提供合适的限定。因此,Lord 悖论给那些希望对群组进行类似研究的学者增加了一项困难的解释性任务。不难看出,两位统计学家的结论都离不开必要的假设前提,而这些假定往往不能依经验加以验证,故而避免Lord 悖论的关键在于厘清其内在的因果效应。Rubin(1974)提出潜在结果的概念,为定义因果效应问题提供了有效框架[4],能够较好地解释Lord 悖论[4]。

    观察性研究中,定量分析结论通常建立在一些不可经验证伪的假定基础之上,这使Lord 悖论活跃于因果探究的各个研究领域。针对Lord 悖论在不同领域的表现,可概括出Lord 悖论的一般定义:当研究人员考察两个变量间的因果关系时,如果一个变量是连续型,而另一个变量是类别型,此时加入第三个连续型变量进行校正而产生相反结论的情形均可视为Lord 悖论。Tu 和Gunnell 等(2008)对出生体重与日后患高血压的因果关系进行研究,单独考察两者之间的关系发现出生体重较重者相对于出生体重较轻者具有更高的平均血压,而将当前体重作为共变项进行校正后,则发现出生体重较重者的平均血压反而要低于出生体重较轻者[5]。Sorjonen 和Farioli 等(2017)以一群瑞典男性为研究对象,发现患有近视的男性拥有比正视眼男性更高的智力和教育水平,且这两组人的水平都高于患有远视的男性。若将智力作为共变项进行校正,却发现远视眼男性的教育水平反而高于正视眼男性[6]。此类Lord 悖论的案例还有很多,不再一一列举。

    (二)三大悖论的比较

    因果推断中的Lord 悖论、Simpson 悖论与抑制效应都呈现为反向悖论,但三者之间又有区别。Simpson悖论由英国统计学家辛普森(Edward Huge Simpson)于1951 年提出,在研究两个类别型变量是否具有关联性时,引入第三个类别变量时可能得到完全相反的结论[7]。抑制效应是指在线性回归模型中引入一个与因变量无关的潜在协变量反而会提高模型估计的拟合优度。表1给出Lord 悖论、Simpson 悖论与抑制效应之间的联系与区别。其中,Simpson 悖论由无条件概率和有条件概率结果之间的差异造成,Lord 悖论由无条件均值和有条件均值结果之间的差异造成,而抑制效应则由无条件的变量关系和以某一无关变量为条件的变量关系结果之间的差异造成。

    表1 Lord 悖论、Simpson 悖论与抑制效应的比较

    为了更直观地认识Lord 悖论、Simpson 悖论和抑制效应的区别,根据Tu 和Gunnell 等(2008)的研究为案例进行阐述。其研究涉及三个变量:出生体重、当前体重和血压,为考察出生体重是否与日后患高血压有关,首先对样本进行描述性分析,发现出生体重较轻者患高血压的风险要低于出生体重较重者。若将当前体重和血压定义为连续型变量,出生体重为类别型变量,双样本t 检验表明出生体重较重者的平均血压要高于出生体重较轻者;
    将当前体重作为协变量进行校正,结果显示出生体重较重者的平均血压反而要低于出生体重较轻者,这一现象即为Lord 悖论。如果将当前体重分为大于90kg 和小于等于90kg 两个组别并作为协变量进行校正,得到出生体重较轻者患高血压的风险要高于出生体重较重者的结果,这一现象被称为Simpson 悖论。若将出生体重、当前体重和血压均定义为连续型变量,通过两个线性回归分别考察出生体重与血压、当前体重与血压之间的关系,发现出生体重、当前体重均与血压呈正向关系,然而将三者同时进行回归则发现出生体重的偏回归系数为负值,当前体重的偏回归系数为正且大于单独回归的系数,原因在于出生体重抑制了当前体重对血压的噪音,这一现象即为抑制效应。

    Lord 悖论形成的内在机制是什么?学者从不同角度展开了多方面解释,本文遵从历史演进的逻辑,解析Lord 悖论产生的内在机制。

    (一)模型设定的影响

    在Lord(1967)的案例中,第二位统计学家注意到男生的平均初始体重要高于女生,看似比较合理地将初始体重的差异归于性别差异,因此对这一差异进行校正,单独对男、女生的体重进行比较,得到与第一位统计学家相反的结论。当将男、女生作为一个整体来考察其平均水平时,男生体重增加更多的效应突然消失,这违背了“确定事件原则”,即当应用于作为一个整体的总体时,每个子总体之间的关系不应消失或逆转[8]。

    由于无法获得旧的食堂饮食数据,早期致力于解释Lord 悖论的学者假定了一个在旧饮食条件下的体重增长模型,得出几乎一致的结论,即两位统计学家实际上都是正确的,结果依赖于假定模型和统计学家试图去回答的确切问题。Bock(1975)通过两个不同的问题来印证两位统计学家不一样的结论,认为第一个结论是第二个结论的一般化形式[9]。Cox 和McCullagh(1982)假定在旧饮食条件下每个人的最终体重与初始体重保持相同,以此为基础计算新饮食条件下的因果效应,发现第一位统计学家是正确的,新饮食条件对男性和女性体重增加的平均效应都为零[10]。基于相同的模型,他们发现第二位统计学家也是对的,因为最初体重超重的人往往会减肥,而最初体重不足的人往往会增重,那么比较相同初始体重的男、女生会显示男生比女生增加了更多的体重。然而,Cox 和McCullagh(1982)并没有回答为什么每个子群体的不同收益和相等的平均收益不能违背“确定事件原则”这一问题。Holland 和Rubin(1982)构建了几种不同的旧饮食假设模型,发现饮食的性别因果效应对男生和女生来说可能都不为零,依据假设模型的参数,其差异可能是正值或负值,因此这两位统计学家可能都是正确的或都不正确,结论取决于旧饮食增重模型的假设[11]。同样,Holland 和Rubin(1982)也没有解释在新饮食数据下为什么两位统计学家的结果不应该受到“确定事件原则”的约束。值得注意的是,“确定事件原则”并没有禁止总体上局部关联的逆转或消失,仅仅是禁止在子群体保持相同时因果效应的逆转。Lord(1967)案例中女生在初始体重较轻者中所占比重高于男生,因而随着研究对象从男生转向女生,以初始体重为特征的子群体就会发生变化。因此,检验是否违反“确定事件原则”的最优方式是将性别作为干预变量,考察其对体重增长的影响。

    另一个早期学者无法回答的问题是:Lord(1967)允许初始群组差异的一般策略要求是什么?Lord(1967)指出,在可获得数据的基础上,研究者比较群体之间的关系时应当保证他们之间没有不受控制的初始差异。回顾Lord(1967)的案例,其实际目的是为了考察在固定或给定饮食条件下,男生的新陈代谢对生长模式的影响是否与女生不同。如果不存在初始差异,毫无疑问性别对体重增长的因果效应是这一研究的关键因素。但是,Lord(1967)认为并没有合适的一般标准能够用于控制组间的初始差异,这一观点给半个世纪以来该领域的因果推断与解释带来巨大挑战。

    (二)因果中介的影响

    尽管当时没有一个通用标准能够对组间不受控制的初始差异给予合适的限定,随着潜在结果框架和因果网络图的提出,这一标准在有关因果探求的文献中得到很好发展[12-15]。Lord(1967)的案例中第一位统计学家估计了性别对体重增长的总效应,第二位统计学家估计了基于中介变量(初始体重)校正的直接效应,而一般标准问题与中介变量校正是否适用于估计总效应和直接效应的答案一致。为了更直观地理解Lord悖论中存在的因果中介问题,借助因果图进行分析(见图2)。

    图2 Lord 因果图

    图2 中G 表示性别,W1是初始体重,WF为最终体重,令Y 为增加的体重(WF-W1)。从图2(a)可以看出,初始体重W1受性别影响,而W1又影响到最终体重WF,因此W1可被看作是G 和WF的中介变量,或是G和Y 的中介变量。假设不存在其他混杂因子,令G=1表示男生,G=0 表示女生,得到总效应:

    而直接效应为:

    显然,两者的表达式存在较大差异,因而会得到不同的估计结果。为了更简便地考察两者结果的差异,借鉴Wright(1921)[16]和Pearl(2013)[17]的方法,对图2(a)中的模型进行线性化,得到图2(b)。假设变量已经过标准化处理,则总效应是G 到WF的所有路径上系数效应的总和,即:

    而直接效应则跳过所有经过W1的路径,只考察性别对最终体重的影响,即:

    可见,当b=a(1-c)时,总效应为0,而直接效应是一个正值。换句话说,虽然男生的平均初始体重高于女生,但性别差异会产生更多的高体重男生,扣除这一性别差异引起的部分会使男生体重的总效应等于女生。因此,两位统计学家得到不同却不矛盾的结论并不奇怪,问题的关键在于研究者事先指定的考察目标是直接效应还是总效应。实际生活中诸如此类的情况很多,例如天花接种会带来致命的风险,但在整体上却能降低死亡率。

    (三)混杂因子的影响

    Holland(1986)主张没有操作就没有因果关系,性别变量的不可操作性决定其不能产生因果效应[18]。鉴于此,Wainer 和Brown(2006)简化了Lord 悖论,将性别因素排除在外,构建模型来考察两个食堂所提供的不同饮食对学生体重的影响效应[19]。由于食堂选择是可操作的,因果效应能够被明确界定。他们同样让两位统计学家采用不同的统计方法进行估计,结果如图3所示。

    图3 简化的Lord 悖论示意图

    第一位统计学家计算了每个学生在上一年9 月份和下一年6 月份的体重差异,从图3 可看出体重差异分布于45° 对角虚线上,表明两个食堂对学生体重增加的影响没有差异。第二位统计学家则对每个学生上一年9 月份到下一年6 月份的体重进行协方差分析,从图3 可看到食堂B 回归直线的截距要高于食堂A,表明食堂B 的平均体重增加要大于食堂A。那么,究竟哪种计算结果是正确的呢?回答这个问题,首先要弄清楚食堂B 饮食的因果效应是什么。在W-B 因果图(见图4)中,初始体重(W1)不再是独立的干预,实质上是一个混杂因子,因为体重超重的学生似乎更倾向于选择食堂B,意味着W1既影响饮食(D),也影响最终体重(WF)。在估计因果效应时,如果存在混杂因子,须对其进行控制,否则会得出错误的结论。基于此,无论研究者是想考察饮食对最终体重的影响还是对体重增加的影响,都必须对初始体重W1进行校正。因此,此案例中第二位统计学家采用协方差分析所得的结论是正确的,而第一位统计学家的结论存在错误。

    图4 W -B 因果图

    比较Lord(1967)以及Wainer 和Brown(2006)的研究发现,为了考察两个变量之间的关系,他们均引入共变项——初始体重W1,不同的是W1在Lord(1967)的研究中是一个中介变量,而在Wainer 和Brown(2006)的研究中是一个混杂因子,这一差异导致对Lord 悖论的两种不同解释:当W1是中介变量时,两位统计学家的结果都是正确的;
    当W1是混杂因子时,第一位统计学家的结果是错误的,第二位统计学家的结果是正确的。

    (四)Lord 悖论的衍生

    上述关于形成Lord 悖论的解释均以潜在结果框架为基础,认为两种方法之间的选择取决于不可测试的假设条件,即不存在其他未被观察到的混杂因子,如果存在混杂因子须通过严格的逻辑推导来决定目标效应是否可估计,否则估计的因果关系可能有偏。最近在健康科学领域,因果图工具的运用表现出明显的优势,使出生体重悖论成为Lord 悖论衍生形式之一。出生体重悖论考察的是出生体重与吸烟母亲所生子女死亡率之间的关系,一般来说低出生体重儿具有更高的死亡率,而吸烟母亲所生子女的出生体重更可能低于非吸烟母亲所生子女的出生体重,因此吸烟母亲所生子女的死亡率应该更高。然而,Wilcox(2006)却发现吸烟母亲所生低出生体重子女的死亡率要低于非吸烟母亲,这一结果似乎表明母亲吸烟对婴儿健康是有益的,显然不符合科学常识[20]。

    为了弄清出生体重悖论产生的根源,首先应考察出生体重对死亡率的因果效应。由于吸烟以及其他未被观察到的混杂因子存在,估计结果往往有偏。即使对吸烟进行控制,仍然可能有其他混杂因子无法控制。值得注意的是,吸烟和其他因素都影响出生体重,控制吸烟这一因素将改变其他因素导致低出生体重的概率。假定相比于吸烟,造成低出生体重的其他因素可能更有害,使吸烟反而会降低其他因素所引起的死亡率,从而产生非吸烟母亲所生子女死亡率更高的错觉。此外,进一步考察吸烟对死亡率的影响,如果不存在其他影响出生体重初始差异的因素,这一问题就回到了最初Lord 悖论的因果中介问题。概括来说,Lord 悖论中面对的是两种看似都合理的分析方法之间的冲突,而出生体重悖论面对的是有效分析方法与结论合理性之间的冲突。

    随机实验是进行因果推断的标准手段,当随机实验不可实施时,混杂因子往往不可避免地存在,阻碍着因果效应的正确估计。无论是最初的Lord 悖论还是其衍生形式,在群组间没有不受控制的初始差异的前提下,解决悖论的根源在于界定共变项是中介变量还是混杂因子。如果是中介变量,研究者应事先明确研究目标是直接效应还是总效应;
    如果是混杂因子,即使两个变量之间没有因果关系也可能表现出相关性,此时应排除以混杂因子为条件造成的变量相关性,以分离出真正的因果效应。可见,避免Lord 悖论出现的关键在于明晰变量之间的因果关系。统计推断本身并不足以给出因果关系的信息,不正确地运用统计模型可能产生一致、可复制但错误的结果[21]。为有效获取变量之间的因果关系,须科学开展因果推断,对非随机分派的观测性研究,建立统计模型时不仅要考量因果推断准则,先验知识与理论构建也扮演着至关重要的角色,因为找出同时与因、果都有联系的变量并不仅仅是数学或统计问题,还需要相关领域的经验积累。

    Lord 悖论留给学界一个难题:基于现实世界的一个基本理论模型,是否应该允许初始差异的存在?如果允许,应当如何处理?通过Lord(1967)、Wainer 和Brown(2006)的案例可知,此类问题可采用合理的理论模型来加以解决,而不需对干预和结果之间关系的函数形式做任何假定。出生体重悖论也为这一争议提供了有效解决方案的启示,即学者应放弃传统依靠统计定义而开展的中介分析,取而代之的是采用基于反事实框架的因果定义来进行分析。对某一特定场景,是否可以估计出预定效应是一个统计问题,不应被直觉的冲突所动摇。

    实际应用中探究事物背后的因果关系时,应多用批判的眼光看待统计结果,并保持小心警惕的心态,遇到有悖于直觉的观点和见解时,应放弃原有习惯性保持的直觉或旧观念,以看清意外结果的内在本质,有效避免数据分析中的悖论和陷阱。◆

    猜你喜欢 悖论食堂体重 视神经炎的悖论保健医苑(2022年1期)2022-08-30学珍食堂现代装饰(2022年1期)2022-04-19给鲸测体重,总共分几步小哥白尼(野生动物)(2021年9期)2022-01-17“互助孝老食堂”值得推广今日农业(2021年10期)2021-11-27三减三健全民行动——健康体重中老年保健(2021年4期)2021-08-22奇妙体验之称体重好孩子画报(2020年10期)2020-11-02称体重故事作文·低年级(2020年10期)2020-10-21食堂意林·全彩Color(2019年11期)2019-12-30“帽子悖论”当代陕西(2019年9期)2019-05-20美妆悖论健康女性(2014年10期)2015-05-12
    相关热词搜索:悖论推断因果

    • 名人名言
    • 伤感文章
    • 短文摘抄
    • 散文
    • 亲情
    • 感悟
    • 心灵鸡汤