上述糟糕的情形还会进一步加剧。统计功效低下的研究只能找出非常显著的效果,但是我们知道,效果(如果有)有时非常小。换言之,在检验基因的作用时,研究人员有可能认为检验结果不具有统计学显著性,因此将其排除在外;而那些顺利通过检验的结果,要么是假阳性,要么是过度夸大基因作用的真阳性结果。在小型研究比较常见、影响程度通常有限的领域,统计功效低下的风险尤为突出。不久前,心理学领域最重要的杂志之一——《心理科学》(Psychological Science)刊登了一篇论文,指出已婚女性在排卵期时,支持民主党总统候选人米特·罗姆尼的可能性显著提高。在排卵期内接受调查的女性中,有40.4%的人表示支持罗姆尼;而在非排卵期接受调查的女性中,只有23.4%的人支持他。样本虽小,只有228名妇女,但是显著性差异很明显,其p值为0.03,足以顺利通过显著性检验。
其实,显著性差异太大恰恰是问题所在。在支持罗姆尼的已婚女性中,有接近一半的人每个月还有某些时间竟然表示支持奥巴马,这种现象真的可信吗?如果是真的,难道没有任何人注意到吗?
即使排卵期真的会影响已婚女性的政治倾向,这种影响也会比上述研究结果要微弱得多。如果研究规模比较小,那么人们在用p值过滤时,往往会排除影响程度较为接近p值的结果,因此,上述检验得到的较大显著性差异是有悖常理的。换言之,我们可以有把握地认为,这次研究得出的显著性结果大多甚至全部是噪声。
虽然噪声有可能告诉我们真相,但同样有可能把我们引向相反的方向。因此,尽管这样的结果具有统计学显著性,但不可信,我们仍然不知道真相。
科学家把这个问题称作“赢家诅咒”。有的实验取得了令人信服、广受赞誉的结果,但是人们在重复这些实验时,却常常得到乱七八糟、令人失望的结果。之所以出现这样的情况,赢家诅咒就是一个原因。下面向大家介绍一个有代表性的例子。心理学家克里斯托弗·查布里斯(Christopher Chabris)率领若干科学家,针对基因序列中的13种单核苷酸多态性(SNP)进行了研究。在之前的研究中,人们观察发现,这些多态性与智商分数的相关性存在统计学显著性。我们都知道,能否在智商测试中取得高分,在某种程度上是由遗传因素决定的,因此,寻找遗传标记的做法不无道理。查布里斯的团队将这些SNP与一些大型数据集(例如,以1万人为对象的威斯康星纵向研究)中的智商分数进行了比较研究,结果却发现SNP与智商分数之间的相关性都不具有统计学显著性。因此,我们几乎可以肯定,即使这种相关性真的存在,也是很微弱的,连大型测试都无法检验到。当前,基因学家认为,智商分数可能并不集中取决于为数不多的几种“聪明”的基因,而是众多遗传因素集腋成裘的结果。也就是说,如果我们试图从SNP中寻觅具有统计学显著性的遗传效果,我们也会有所发现,只不过成功的概率与肠卜僧差不多,只有1/20。
连约安尼迪斯也不相信公开发表的论文只有1/1000的正确率。大多数人研究基因序列时都不是漫无目的的,他们检验的往往是之前被认为是正确的研究结果,因此在前文的方框图中,位于底层那一排的内容不会明显优于上层一排的内容。但是,重复实验危机依然存在。2012年,加利福尼亚一家名叫安进的生物技术公司开展了一项计划,科研人员通过重复实验去验证癌症生物特征方面的一些著名的实验结果,总计53种。结果,他们只成功验证了其中的6种。
为什么呢?这并不是因为基因学家与癌症研究人员都是傻瓜,而是由多种因素造成的。重复实验危机反映了一个事实:科学研究的道路上困难重重,我们的大多数观点都是错误的,即使在第一轮检验中侥幸胜出的观点也大多是错误的。
但是,科学界的一些做法加剧了这种危机的危害性,而这些做法其实是可以改正的。一方面,我们在论文发表这方面出了问题。我们以下文所示的xkcd漫画[1]为例。假定我们在了解基因与我们研究的某种疾病之间是否存在相关性时,测试了20个遗传标记,并发现只有一个测试结果的p值小于0.05,如果我们是数学研究的老手,我们就会知道,在所有的遗传标记都不起作用时,我们的成功率正好是1/20。此时,我们会对歪曲报道的新闻标题嗤之以鼻,而这正是漫画家创作这幅漫画的真实意图所在。
如果我们测试的是同一种基因或者绿色豆胶糖,而且20次测试中只有一次得到了具有统计学显著性的结果,我们就更加确定这个结果不值一提。
但是,如果20组研究人员分别在20个实验室里针对绿色豆胶糖进行了共计20次测试,结果会怎么样呢?有19个实验室不会得出具有统计学显著性的测试结果,他们也不会据此发表论文。这是毫无疑问的,谁会把“吃绿色豆胶糖与得痤疮之间没有相关性”作为重大发现公开发表呢?第20个实验室里的研究人员比较幸运,得出了一个具有统计学显著性的测试结果,原因是他们的运气好,但他们并不知道自己的成功得益于运气。在他们看来,他们对“绿色豆胶糖会诱发痤疮”这个理论只进行了一次检验,而且检验结果是有统计学显著性的。
如果我们完全根据公开发表的论文来决定吃哪种颜色的豆胶糖,就会犯错误,而且它与美军在计算从德国返航的飞机身上有多少个弹孔时所犯的错误性质一样。亚伯拉罕·瓦尔德说过,如果想了解真实情况,还需要考虑那些没有返航的飞机。
这就是所谓的“文件柜问题”:由于大众传播受到统计学显著性临界值的影响,导致某个科学领域对某个假设的证据形成了严重歪曲的观点。而我们已经为这个问题赋予了另外一个名字,即“巴尔的摩股票经纪人问题”。那位极其兴奋地准备新闻发布会,并打算宣布“绿色染料”16号与皮肤病有相关性的幸运的研究人员,与那位将毕生积蓄交给不诚实的经纪人、想法天真的投资人一样,都受到了“文件柜问题”的影响。那位投资人与那位研究人员一样,只看到了碰巧过关的那一次实验结果,却没有看到更多的实验以失败告终。
但是,两者之间有一个重大的不同,那就是科研活动中没有居心不良的骗子,也没有无辜的受害者。如果科学界将失败的实验都装进“文件柜”,它就是在自欺欺人。(www.xing528.com)
上述结果都是以相关科研人员不弄虚作假为前提的。但是,这样的条件并不总能得到满足。还记得让圣经密码编码者陷入困境的回旋余地问题吗?科研人员唯恐遭到淘汰,他们面临的发表论文的压力很大,因此在面临回旋余地的诱惑时可能会受到影响。如果分析得到的p值为0.06,这些结果就不具有统计学显著性。但是,把多年的心血锁进文件柜,是需要极强的意志力的。是啊,对于研究者来说,看到这些数字难道一点儿都不别扭吗?也许这就是个异常值,或许我们可以把数据表的某一行删除吧。年龄方面的数据得到控制了吗?室外天气方面的数据得到控制了吗?年龄数据与室外天气数据都得到控制了吗?如果我们找出各种理由,修改与研究结果直接相关的统计数据,我们常常可以把p值由0.06降至0.04。乌里·西蒙逊(Uri Simonsohn)是宾夕法尼亚大学的一位教授,他是重复实验研究的开创者,他把这些做法称作“p值操控”。通常,p值操控并不像我说的那样粗暴,而且一般都不是恶意行为。在操控p值时,人们坚信自己的假设是正确的,那些圣经密码编码者们就是这样。此时,人们很容易找到理由,认为自己得出可以发表的研究结果是正确的,甚至还会后悔一开始的时候没有朝这个方向努力。
但是,大家都知道这种做法并不正确。科学家发现至今仍然有人在这样做,他们把这种做法描述成“对数据进行严刑拷打,直到它们招供才罢手”。因此,所谓的具有统计学显著性的实验结果,不过是通过操控数据去迎合自己的预期罢了。
美军无法检查坠毁在德国境内的飞机遭受了哪些打击,同样,对锁在文件柜中没有发表的那些论文,我们也查看不到,因此,操控p值的程度难以估计。但是,我们可以向亚伯拉罕·瓦尔德学习,对无法直接测算的数据进行推断。
我们还是以《国际肠卜术杂志》为例。如果我们仔细阅读该杂志发表的所有论文,然后把所有的p值都记录下来,我们会发现什么问题呢?记住,在这个例子中,零假设永远正确,因为肠卜术是不起作用的。因此,有5%的实验结果的p≤0.05,4%的p≤0.04,3%的p≤0.03,以此类推。换句话说,p值在0.04与0.05之间的实验,与p值在0.03与0.04之间,以及p值在0.02与0.03之间……的实验,数量相当。如果把所有论文的p值绘制成图,我们就会得到下图所示的水平的曲线。
如果我们阅读的是一份实事求是的杂志,情况会怎么样呢?在我们检验的众多实验结果中,有很多的确是真实有效的,因此,这些实验结果的p值小于0.05的可能性更大。在这种情况下,p值曲线应该向下倾斜。
不过,现实情况并不完全如此。统计调查人员发现,在政治科学、经济学、心理学及社会学等多个领域里,p值曲线在接近0.05这个临界值时会明显向上倾斜。
这就是p值操控造成的。这种情况说明,大量本来位于p=0.05这个临界值之上而无法发表的实验结果,经过对数据的坑蒙拐骗、威逼利诱甚至严刑逼供之后,变成了令人满意的结果。这对急需发表论文的科研人员而言是好事,但对于科学研究来说则是噩耗。
如果作者不愿意“折磨”他的数据,或者经过“逼供”之后,p值仍顽固地停留在0.05这道红线之上,又会怎么样呢?科研人员仍然有变通的办法,他们会精心编排出各种说辞,竭力为不具有统计学显著性的实验结果辩解。他们会说他们的实验结果“几乎具有统计学显著性”“有显著性倾向”“接近于显著性”“处于显著性的边缘”,甚至会煽情地说这个结果“在显著性边缘徘徊”。[2]对于研究人员处心积虑想出的这些词句,我们当然可以大加嘲弄,但是,我们憎恶的应该是这项活动,而不是这样做的人,因为这种冰火两重天的情况是论文发表门槛导致的。用0.05设置一个生死界线,是在基本范畴的问题上犯错误,把连续变量(我们有多少证据可以证明这种药物有疗效,这种基因可以决定智商分数,排卵期的女性倾向于支持民主党总统候选人)当作二进制变量(对或者错)来处理。也就是说,我们应该允许科研人员报告不具有统计学显著性的研究结果。
在某些情境中,科研人员必须报告不具有统计学显著性的研究结果。2012年,美国最高法院的一项判决意见被全票通过。这个判决意见是,Zicam感冒药的制造商Matrixx必须做出明确告知,某些人在服用该药物后会丧失嗅觉。该项判决意见的起草人索尼亚·索托马约尔(Sonia Sotomayor)认为,虽然丧失嗅觉的研究没有通过显著性检验,但是在向公司投资人提供的所有信息中应该包含此项内容。p值较弱的实验结果也许只能起很小的证明作用,但是总比没有好。p值较强的实验结果可能有更大的证明作用,但是我们已经知道,它不一定是真实的。
毕竟,0.05这个p值并没有什么特别之处,它只是主观选择的一个临界值,是费舍尔确定的一种习惯做法。当然,传统做法有其积极意义,一个被广泛接受的临界值,可以帮助大家理解显著性一词的含义。我读过美国传统基金会的罗伯特·芮克特(Robert Rector)与柯克·约翰逊(Kirk Johnson)合写的一篇论文。他们在论文中抱怨,一些科研人员宣扬了一个错误的观点,认为禁欲宣誓对青少年患性疾病的比例大小没有影响。事实上,研究发现,在宣誓新婚夜之前不发生性行为的青少年中,患性疾病的比例略低于样本中的其他青少年,但是两者之间的差异不具有统计学显著性。因此,基金会研究人员认为,可以证明禁欲宣誓起作用的证据并不多,但也不是绝对没有。
与此同时,芮克特与约翰逊在他们合写的另一篇论文中,却指出人种与贫困问题之间的相关性不具有统计学显著性。他们认为:“如果一个变量不具有统计学显著性,就说明该变量的功效系数无法通过统计学方法明显辨识,换言之,这个变量没有任何效果。”然而,证明禁欲宣誓有效的方法,对于证明人种影响应该同样适用。因此,传统做法的价值就在于它对研究人员的约束作用,防止他们受到诱惑,随心所欲地决定哪些结果有效或者哪些结果无效。
但是,人们在长期遵循传统做法之后,很容易把它误当作现实世界真实存在的规律。试想,如果我们用这样的方法来评估经济状况,会怎么样。经济学家对“经济衰退”有一个严格的定义,与统计学显著性的定义一样,也要依赖于某些主观确定的临界值。人们不会说“我不关心失业率、住房工程、学生贷款总额或者联邦预算赤字;如果不是经济衰退,我们就无须讨论”它们,说这些话的人都是在胡说八道。批评家(他们的人数正逐年增加,批评声也甚嚣尘上)说,科学界的很多做法与这些说法相似,都荒谬至极。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。