Naked Statistics
世界上3本最有声望的医学期刊上刊登的49篇学术研究论文中有1/3后来都被推翻了,所以,“尽量不要用你的回归分析研究杀人”。
在进行回归分析时,需要记住的最重要的一点就是:尽量不要杀人。你甚至可以在你的电脑屏幕旁贴上一句话时刻提醒自己:“不要用你的研究杀人”。因为即使一些非常聪明的家伙有时候都免不了违反这条规定。
从20世纪90年代起,许多家医学机构相继支持一个观点:上了年纪的女性可以通过摄入雌激素来预防心脏病、骨质疏松以及其他与更年期有关的疾病。截止到2001年,有差不多1 500万名女性正在服用雌激素,开药的医生声称她们服用雌激素以后身体会更健康。为什么呢?因为当时的研究采用了我们在上一章内容中所讲的基本统计方法,得出结论说给女性病人开雌激素药物是一个合理的治疗手段。具体来说,一项针对12.2万名女性的纵向调查(“护士健康研究”项目)显示,雌激素摄入量和心脏病之间存在负相关关系,定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3。要知道,这可不是几个青少年在父亲的电脑上一边搜索成人视频、一边用统计软件随意得出的回归方程式,“护士健康研究”项目是由哈佛大学医学院和公共卫生学院共同主持的。
与此同时,科学家和医生们还为补充雌激素有利于女性健康提供了医学上的理论支持。随着年龄的增长,女性卵巢分泌雌激素的能力下降,如果雌激素真的对身体非常重要的话,那么在老年时补充这一不足将有利于女性的长期健康,因此他们还为这种治疗方法取了名字:雌激素补充疗法。一些研究人员甚至开始建议上了年纪的男性也应该适当补充一些雌激素。
在数百万的女性听从了医生的建议,开始接受荷尔蒙补充疗法的同时,雌激素也进入了最为严格的科学审查阶段:临床试验。与之前观察一个大型数据(如“护士健康研究”样本)并得出一个可能具有因果关系的统计学关系不同,临床试验包含了控制实验。一组样本服用雌激素补充片剂,另一组样本只是服用安慰片剂,结果显示,摄入雌激素的女性患心脏病、中风、血栓、乳腺癌和其他疾病的风险要高于对照组。补充雌激素确实存在一些益处,但这些益处跟其他风险相比根本不值一提。从2002年开始,医生被建议尽量避免对年长的女性病人开具雌激素类药物。《纽约时报杂志》提出了一个敏感但又有深刻社会意义的问题:有多少女性是因为服用了医生“出于病人健康”考虑开出的雌激素药片而中风或患上乳腺癌过早离世的?
回答是:“合理估计至少有上万人。”
回归分析可以说是统计学弹药库中的“氢弹”。无论是谁,只要有一台电脑和一个大型样本数据,在家中或者办公室里就能成为一个研究员。这样做会出什么错呢?各种错误。回归分析为复杂的问题提供了精确的答案,但这些答案却不一定准确。在错误运用这一统计工具的人的手中,回归分析会得出误导甚至错误的结果;但就如雌激素案例所示,即使在正确运用这一统计工具的人的手中,这一强大的统计工具依然可以让我们在错误的方向上危险超速、越走越远。本章的写作初衷就是为了提供一个平衡,解释最常见的回归“错误”,我之所以将错误打上引号,是因为跟所有其他类型的统计分析一样,聪明的人有时候也会出于邪恶的目的“明知故犯”。
以下就是让回归分析这一非凡的工具沦为“邪恶”工具的7个最常见的错误。
用回归方程式来分析非线性关系。不知道你是否留意过吹风机上贴的那句警示标语—禁止在浴缸中使用。如果你看到了,心里一定会想:“有谁会傻到在浴缸里吹头发呢?”吹风机是电器,我们都知道在有水的环境中应该远离电器,因为会触电。假如回归分析也有一个类似的警示标语,那么上面写的就会是:当分析的两个变量之间不存在线性关系时禁止使用。请记住,回归系数所描述的是那条“数据最佳拟合直线”的坡度,一定要是一条直线,假如不是,就需要在另外的地方用不一样的坡度方程来诠释。举个例子,如下是我每个月上的高尔夫球课(解释变量)和每场18洞练习的平均杆数(因变量)之间的关系,如你所见,两者之间并不存在一致的线性关系。
图13–1 高尔夫球课程对打球成绩的影响
上图中并非完全没有规律,只不过是难以用一条直线来描述罢了。前几节高尔夫球课使我的杆数快速降了下来,因此在这个阶段,我的课程数与杆数是呈负相关关系的,斜度为负,也就是说,上课降低了我的杆数(对于高尔夫球来说这是一件好事)。
但是,当我的学费累计交到了200~300美元时,这个阶段的课程似乎对我的球场表现没有太大的帮助。高尔夫球课程与我的成绩之间似乎不存在一个明确的关系,因此斜度为零。
随着上课的次数越来越多,我的成绩甚至出现了下滑。当累计学费达到300美元以上,增加的课程反而使我的杆数越来越高,在这个阶段斜率就为正了(后面的内容我会为大家解释为什么是发挥不佳导致了学习更多的课程,而不是学习更多的课程导致了发挥不佳)。
最重要的一点是,我们无法用一个系数来准确概括高尔夫球课程和成绩之间的关系。对于上述关系来说,一个最佳的描述方式是:高尔夫球课程与我的挥球杆数之间存在着若干个不同的线性关系。你看得到这种情况,但是在电脑上的统计软件却看不到。如果你一股脑儿地把这些数据输入回归方程中,电脑也会生成一个系数,但这个系数将无法准确地反映不同变量之间的真正关系,这其实与在浴室里用吹风机是一样的。
只有当变量之间的关系为线性时,回归分析才可派上用场。课本以及其他高阶统计学课本还将介绍更多有关回归分析的主要概念,但万变不离其宗的是,无论是什么工具,离它的初始功能偏差越大,其效果就会越差,有时候甚至还会有危险。
相关关系并不等同于因果关系。如我之前所说,回归分析只能证明两个变量之间存在关系,至于是不是其中一个变量发生变化就一定能导致另一个变量也发生变化,仅凭数据我们无法给出证明。事实上,一个并不十分严谨的回归分析也能在两个完全不相关的变量之间找到显著且有统计学意义的关系。假设我们正在探寻过去20年里美国的自闭症病例不断增多的原因。我们的因变量—也就是我们正在试图对其做出解释的现象—需要对自闭症进行量化,比如每千名某个年龄段儿童中自闭症的病例数量。与此同时,假如我们将中国的人均年收入看作一个解释变量,我们肯定能够在过去20年里激增的中国人均收入和上升的美国儿童自闭症确诊率之间发现一个正相关且具有显著统计学意义的关系。
这是为什么呢?因为它们在同一时期都出现了快速上涨的趋势。但是,我高度怀疑即使中国出现经济衰退,美国的自闭症儿童也不会因此减少。为了公平起见,假如我在中国高速增长的经济和中国国内自闭症确诊率之间发现了显著的相关关系,那么我或许会开始调查一些与经济增长相关的环境因素,例如工业污染等,这些因素或许能够解释这一相关关系。
像我刚刚讲到的这种存在于两个变量之间的错误的相关关系只不过是“冰山一角”,曲解甚至错误解释A与B之间相关关系的做法还有很多,广义上我们将这类现象称为伪因果关系。
因果倒置。假如A与B之间存在统计学关系,我们不能直接推出A导致B,因为完全有可能是B导致A。还记得刚刚的那个高尔夫球课的例子吗?我当时已经暗示了这种现象的存在。在我搭建的解释模型里,击球成绩始终是因变量,解释变量一直锁定在累计课程上。也就是说,上的课越多,成绩越差!一种解释是我的高尔夫球教练教得很差,但另一种更加说得通的解释是,我在状态不好时总是会想着多上几节课—状态不佳导致了更多的课程,而不是相反的情况。(对于这类问题来说,我们在方法论上有多种解决办法。例如,我可以将这个月的高尔夫球课作为下个月成绩的解释变量)。
正如本章一开始所讲的,因果关系有时候是双向的。假设你手头正在做的一项调查显示,美国在K–12(指从幼儿园到12年级儿童教育)上投入多的州的经济增长率要高于K–12项目投入少的州。但就算这两个变量之间的正相关关系再显著,我们也无法从中看出因果关系的方向。我们既可以说K–12教育的投入推动了经济增长,也可以认为只有那些经济实力雄厚的州才有钱在K–12教育上投入更多,因此是增长的经济带来了教育的投入。还可以说,教育支出推动了经济增长,继而为进一步加大教育投入提供了可能,即它们互为因果。
关键在于,我们不应该使用那些(我们正在花大力气解释的)受结果影响的解释变量,不然的话,因和果将会永无休止地纠缠下去。举例来说,解释GDP增长时,在回归方程中加入失业率因素是不合适的,因为失业率很显然会受GDP增长率的影响。或者换一个角度来看,通过回归分析,发现失业率的下降会促进GDP的增长,这样的结论是可笑的、没有任何意义的,因为为了降低失业率,通常的做法是促进GDP的增长。(www.xing528.com)
我们应该确保解释变量会影响因变量,而不是相反情况。
变量遗漏偏差。下次当你在报纸上读到类似于《常打高尔夫易患心脏病、癌症和关节炎》这类标题时,千万不要轻信。高尔夫球球员患上这些疾病的概率比不打高尔夫球的人高—关于这一点我一点儿都不觉得奇怪,但我同时也认为打高尔夫球有益健康,因为它不仅能够丰富你的社交生活,还能为你提供适当的运动量。我应该如何在这两个截然不同的观点之间进行取舍呢?非常容易。无论什么研究,在量化高尔夫球对健康的影响时都必须正确控制“年龄”变量,通常来说,年龄越大,打高尔夫球的时间和机会越多,尤其是在退休之后。在打高尔夫球这个课题上,任何没有将年龄作为解释变量的研究都不可避免地遗漏了一个事实,那就是打高尔夫球的人总体上比不打高尔夫球的人年长。因此,杀人的不是高尔夫球,而是衰老,而且那些正在老去的人恰巧对打高尔夫球乐此不疲。如果将年龄纳入回归分析中去,得到的结论将很有可能是另外一幅光景:在年纪相仿的一群人中,打高尔夫球可能还会对严重疾病的预防起到正面的效果。这跟前面提到的报纸标题有着天壤之别。
在这个例子中,年龄是一个被遗漏的重要变量。当我们用回归方程式解释打高尔夫球与心脏病或其他疾病的关系时,如果将年龄因素排除在外,那“打高尔夫球”就会超出自身的解释作用,而相当于扮演了两个解释因素的角色:它不仅告诉我们打高尔夫球对心脏病的影响,而且还告诉我们年纪的增长对心脏病的影响(因为打高尔夫球的人通常比其他人要年老一些)。用统计学术语来表达,就是打高尔夫球这个变量“覆盖”了年龄这个变量的影响。也就是说,这两种不同的影响在分析中被混为一谈,就算计算得再仔细,结果也逃脱不了一团糟的宿命,当然,最糟糕的结果就是认为打高尔夫球对健康有损害,而真实情况却恰恰相反。
假如回归方程式中遗漏了某个重要的解释变量,尤其是当方程式中的其他变量又恰好“覆盖”了遗漏的解释变量的影响,那么回归分析的结果就会变得非常具有误导性,甚至与真相背道而驰。假设我们要评估学校质量,必须了解的一点是:什么样的学校才是好学校?我们的因变量即质量的量化衡量指标,最有可能是考试分数。基本可以肯定的是,我们会将学校的开销作为一个解释变量,希望能够量化开销和分数之间的关系。花钱花得多的学校在统考中的分数也会更高一些吗?假如学校开销是唯一的解释变量,那么毫无疑问,我们将会在开销和考试分数之间寻找到具有显著统计学意义的相关关系。但是,这样的一个暗示“分数可以通过大量花钱推升”的发现,是存在巨大漏洞的。
有许多重要的潜在解释变量在分析中被遗漏了,其中最关键的一个变量就是家长的教育。受教育程度高的家庭更有可能住在相对富裕的地区,配套的学校设施更好,开销自然更大,培养出来的孩子在考试中的表现也更有可能比穷人家的孩子出色。假如在回归分析中没有将学生群体所在家庭的社会经济地位作为解释变量进行控制,那么回归分析结果将极有可能显示学校开销和考试分数之间存在显著的正相关关系。而实际上,分数的高低取决于跨进校门的学生的优劣,而不是教学楼的造价高低。
我记得一位大学教授曾经指出,SAT考试分数与家庭的汽车数量之间存在高度的相关性。因此,这位教授暗示SAT在大学录取这个问题上是一个非常不公平、不适合的参考工具。SAT的确存在缺陷,但我最关心的并不是这门考试与家庭汽车数量之间的相关关系—富裕的家庭就算额外再购买3辆汽车,也无法保证将孩子送进大学。私人车库里的汽车数量在一定程度上反映了这个家庭的收入、教育等社会经济地位的高低,而富人家的孩子在SAT考试中的表现优于穷人家的孩子早已不是什么新闻(前文提到,家庭收入高于20万美元的孩子的SAT阅读理解部分的平均分要比家庭收入低于两万美元的孩子高出134分)。一个更大的隐忧在于,SAT高分是不是可以被“训练”出来的?学生通过参加考前私人培训能够提高多少分?假如培训和分数之间存在任何的正相关关系,那么家境好的孩子就容易占到“便宜”。假如两个天资和能力都相同的孩子,一个来自于富人家庭,一个来自于穷人家庭,前者参加了考前培训并取得了不错的成绩,而后者本来也可以考出一样的高分,但由于家境因素没有机会参加培训班,不得已在考试中处于劣势。
高度相关的解释变量(多元共线性)。在一个回归方程式中,假如两个或两个以上解释变量彼此之间高度相关,那么回归分析的结果将有可能无法分清每一个变量与因变量之间的真实关系。举例说明,假设我们想要知道吸毒对SAT考试分数的影响,我们会询问研究对象是否吸食过可卡因或海洛因(并且假设已经对其他许多变量进行了控制),并使用回归分析的方法,在控制其他变量的基础上(包括海洛因的使用),计算出可卡因对SAT考试分数的影响;再同理计算出海洛因对考试的影响。
但即使我们最后分别求出了海洛因和可卡因的回归系数,依然无法揭开真实的情况。方法论上的一大挑战在于,通常吸食可卡因的人同时也在吸食海洛因,只吸食过其中一种毒品的人的人数非常少,因此在计算两种毒品的独立影响时能用得上的数据量非常小,而且差异将不会很大。回到上一章用来解释回归分析的那个虚拟场景,我们将数据样本分配到不同的“房间”里,每个房间里的人除了某个变量不同,其他全都相同,这样我们就能在控制其他潜在混淆因素的前提下观察某一个因素对结果的影响。在我们的样本人群中,可能有692个人曾经吸食过可卡因和海洛因,但有3个人只吸食过可卡因,2个人只吸食过海洛因。任何有关海洛因或可卡因的独立影响的统计推断,都只能从这些微小的数据中来。
无论是可卡因还是海洛因的回归系数都不可能告诉我们有统计学意义的结论,而且还会让SAT成绩与吸食毒品之间的关系变得更加扑朔迷离。当两个解释变量高度相关时,研究人员通常会在回归方程中只采用其中一个,或创造一个新的综合变量,如“吸食过可卡因或海洛因”。例如,当研究人员想要控制学生的整体经济背景时,他们会将父母双方的受教育程度都纳入方程式中,因为这才是家庭教育背景的有益参考。但是,如果回归分析的目标是单独隔离父亲或母亲的受教育程度,那么将两个因素都纳入考虑范围反而会引起混淆,让分析变得模糊。丈夫和妻子的受教育程度存在着相当大的相关性,以至于我们无法通过回归分析得出一个有意义的关于某个家长的教育程度系数(就好像我们难以区分可卡因和海洛因对考试的影响一样)。
脱离数据进行推断。和所有其他形式的统计推断一样,回归分析的目的是帮助我们更好地认识这个世界,发现能够适用于所有人口的规律。但需要强调的是,我们的结论仅仅是对与所分析样本相似的人口有效。在上一章中,我设计了一个回归方程,通过几个独立的解释变量来预测体重,最终我的模型的R2为0.29,表示其能够较好地解释大量个体不同的体重,而且大量的个体恰好都是成年人。
当我们用这个回归方程式来预测新生儿的体重时,又会发生什么呢?现在就来试一试。我的女儿在出生时身高为21寸,年龄设定为零,教育程度为零,锻炼为零,她还是一个白人女性。再将这些信息输入到由“变化的一生”数据样本得到的回归方程式中去,计算出我刚出生的女儿体重为–19.6磅(而实际上,她刚出生时的体重为8.5磅)。
上一章所提到的“白厅”研究项目的作者在给出结论时就明确地规定了适用范围,可以说具体得不能再具体了:“从事缺乏控制力的工作将会增加未来患上冠心病的风险,该结论仅适用于受雇于政府部门的男性和女性。”
数据矿(变量过多)。假如遗漏重要的解释变量会带来诸多麻烦,那是不是就是说在回归方程式中加入大量解释变量,而且加入的变量越多越好,就一定可以解决问题了呢?并不是,物极必反。
假如变量过多,尤其当无关变量过多的时候,回归分析的结果就会被冲淡或稀释。举个例子,我们在设计研究策略时千万不能按如下方法行事:既然我们不知道是什么引起了自闭症,那就应该在回归方程式中加入尽可能多的潜在解释变量,看看最后有哪些变量具备显著的统计学意义,到那个时候我们或许就会得到一些答案了。如果在回归方程式中加入了足够多的无关变量,那么总会有一个恰好达到显著性水平的门槛,而且像这类无关变量并不是那么容易被察觉的。至于为什么某些在实际操作中说不通的变量在方程式里具有了显著的统计学意义,聪明的研究人员总是能够在事后建立理论模型时给出解释。
为了说明这一点,我经常会回到介绍概率时所举的那个抛硬币的例子。在一个约40人的班级里,我会让每一个学生都抛一枚硬币,抛到反面朝上的学生自动退出,剩下的接着抛;在第二轮中,抛到反面朝上的学生退出,剩下的接着抛第三轮,就这样一直进行下去,直到有一个学生一连抛出五六次正面朝上的结果。或许你还记得对那个学生提出的一些搞笑问题:“你的秘密是什么?诀窍是在手腕吗?你能教大家怎么使硬币一直正面朝上吗?有没有可能是因为你今天穿了哈佛大学的文化衫?”
连续抛硬币的结果都是正面朝上显然只是凭运气,周围的学生都是见证人。但是,统计学却有可能不这么认为。连续5次抛出正面朝上的概率为1/32,约0.03,完全低于我们通常要推翻零假设时所定的0.05的门槛。在这个例子中,我们的零假设是学生抛硬币时并不存在特殊能力;而刚刚连续抛出5次正面朝上的运气(如果我召集了大量学生参与实验,那么这种情况至少能够发生在一位同学身上)就足以让我们推翻零假设,宣布备择假设成立,即这位学生拥有抛硬币总是正面朝上的特殊能力。在他结束了这一令人印象深刻的“神技”表演之后,我们便可以从他下手,寻找成功抛硬币的蛛丝马迹了:他抛硬币的动作、他的体育训练、当硬币在空中时他的注意力放在哪里,等等。自然,所有这一切到最后都可以用“荒唐”二字来概括。
这一现象甚至还蔓延到了正式、严肃的研究中。一个广为接受的研究惯例是,在零假设成立的前提下,如果某个概率小于或等于1/20的偶然结果真的发生了,则我们就可以推翻零假设。当然,假如我们进行20次试验,或在某个回归方程式中加入20个无关变量,那么一般说来就会出现一个具有统计学意义的伪发现。《纽约时报》就引用了医学统计专家和流行病学家理查德·彼托的话很好地概括了这一令人不安的现实:“流行病学是一门如此美妙的学科,为我们了解人类生命和死亡提供了重要的视角,但同时也出版了多得令人咋舌的学术垃圾。”
甚至连医学研究的黄金标准—采取随机抽样的临床试验都应该以怀疑的眼光来审视。2011年,《华尔街日报》头版刊登了一篇有关医学研究的“一个不可见人的秘密”的文章,报纸这样写道:“绝大部分的试验结果,包括那些刊登在顶级同行间审阅的学术期刊上的论文,都是无法复制的。”(同行间审阅期刊上的研究成果和文章,在刊登之前都需要经过同领域的其他专家的审阅以确保研究的可靠性,这类刊物被视作学术研究成果的“把关人”。)之所以会有这样一个“不可见人的秘密”,其中一个原因就是在前面的章节中介绍的“发表性偏见”,如果研究人员和医学杂志大量关注肯定性发现而忽略否定性发现,那么它们就有可能发表唯一的一篇结论为某试验药物有效的论文,而忽略其他19篇证明该药物没有疗效的论文。某些临床试验同样有可能采用小型样本(比如某一种罕见的疾病),这样就提升了观察结果中一些随机偏离的数据在统计的过程中被过度重视的可能性。此外,研究人员可能原本就具有一些有意无意的偏见,或者是出于某个先入为主、根深蒂固的观点,或者是因为某项肯定性发现对他们的事业更有帮助(毕竟,没有人会因为证明某药不能治愈癌症而发财或出名的)。
出于上述种种原因,有大量发表的专家研究最后被证明是错误的。希腊医生和流行病学家约翰·艾奥尼蒂斯对3本最有声望的医学期刊里刊登的49篇学术研究论文进行了统计,每一篇论文的研究发现都被转引了至少1 000次,但其中差不多有1/3的研究成果都被后续的研究否定了。(例如,有一些研究是支持雌激素补充疗法的)。根据艾奥尼蒂斯博士的观察,在已经出版的科学论文中,差不多有1/2最终会被证明是错误的。他的研究成果刊登在《美国医学协会学报》上,有趣的是这就是他所研究的3本期刊中的其中一本。这难免令人产生困惑:假如艾奥尼蒂斯博士的研究发现是正确的,那他的研究发现就很有可能是错误的。
无论怎么样,回归分析依然是一个非常棒的统计学工具(好吧,我承认上一章中将其形容为“神奇的万金油”有一点儿言过其实),它能够让我们从大型的数据样本中寻找到关键的相关关系,而这些相关关系又通常是重要的医学和社会科学研究的关键所在。统计学为我们在评价这些相关关系时提供了客观的标准,如果使用得当,回归分析将会是科学方法的一个重要组成部分。那么,就把这一章看作必须引起重视的警示篇吧。
本章精选的所有警示其实都可以浓缩为两个基本经验。第一,设计一个好的回归方程式,想清楚应该考虑哪些变量、应该从哪里收集数据,一个好的方程式要比统计计算本身更加重要。这个过程可以通过对方程式的评价和回归方程的具体化来实现。优秀的研究人员能够对变量进行逻辑思考,决定哪些变量可以加入到回归方程式中,发现还有哪些遗漏的变量,以及正确解读最终的分析结果。
第二,与绝大部分统计推断一样,回归分析始终以观察样本为立足点。两个变量之间的相关关系就像是犯罪现场的一个指纹,能够为我们指出正确的方向,但在大多数时候还不足以定罪(有些时候在犯罪现场发现的指纹甚至都不是凶手的)。对于任何回归分析来说,都需要在以下方面得到理论支持:为什么方程式里要有这些解释变量?通过其他学科领域是否也能解释这个分析结果?例如,我们为什么会认为穿紫色鞋子可以提高SAT考试数学部分的成绩?为什么吃爆米花可以帮助预防前列腺癌?分析得出的结论需要具有可复制性,至少也得与其他科学发现相一致。
如果不按指示操作,那么就算是“神奇的万金油”也会失效的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。