统计学家科斯马·沙利兹(Cosma Shalizi)曾经给我讲过一个寓言故事:
假设你是一位肠卜僧,也就是说,你的工作是杀死绵羊,通过研究绵羊的内脏(尤其是肝脏)特征预测未来。当然,你不会因为自己在完成相关仪式时遵循了伊斯特里亚诸神的神谕,就认为自己的预测十分可靠。你还需要找到相关证据,于是,你和你的同事将预测结果提交给《国际肠卜术杂志》(International Journal of Haruspicy),请同行评议,该杂志要求所有预测结果都必须通过显著性检验才能发表。
肠卜僧做预测,尤其是严格基于证据的预测,并不是一件简简单单的差事。一方面,你经常会全身沾满污血;另一方面,你的很多次预测都不会成功。你尝试通过研究绵羊的内脏来预测苹果公司的股价,结果失败了;你试图为民主党在西班牙裔美国人当中的投票支持率构建预测模型,结果没有成功;你预测全球石油的供应情况,也失败了。吹毛求疵的诸神,有时并不明示哪种内脏结构以及哪些咒语可以准确地预测未来。有时候,多位肠卜僧所做的实验是一模一样的,但是A成功了,B却失败了。这样的情况令人沮丧,有时候你甚至想放弃做肠卜僧,转而去读法学院。
但有时候一切又非常顺利,你发现绵羊肝脏的纹路与凸起部位真的可以预测第二年流感爆发的严重程度。这些发现让你觉得自己没有白白地遭遇那些挫折与失败,于是,你默默地感谢神灵,然后把预测结果发表到杂志上。
你可能会发现,每进行大约20次实验,就会有一次预测是正确的。
至少我觉得预测正确的概率就这么大。因为我不会像你一样相信肠卜术,我觉得绵羊的内脏不会知道流感爆发的日期,即使两者正好吻合,也纯属巧合。换句话说,只要涉及通过绵羊内脏来预测未来,我都认为零假设是正确的。因此,根据我的经验,肠卜术实验取得成功的可能性非常小。
这种可能性到底有多小呢?按照惯例,统计学显著性检验的标准临界值(p值)也是《国际肠卜术杂志》同意发表预测结果的标准临界值,都是0.05或1/20。别忘了,p值的定义明确规定,如果某个实验的零假设为真,即使该实验真的取得了具有统计学显著性的结果,其成功的概率也仅为1/20。如果零假设总是正确,也就是说,如果肠卜术纯粹是一种骗人的把戏,那么在20次实验中,只有一次实验的结果能达到发表的标准。
然而,肠卜僧有成百上千个,被开膛破肚的绵羊为数更多,因此,即使预测成功的概率仅为1/20,这些成功的实验也能提供大量的证明材料,各种不寻常的实验结果也足以填满每期杂志的版面,让人们相信肠卜术是有效的,神的智慧是不容怀疑的。但是,即使某个实验真的预测成功并且获准发表,如果其他肠卜僧尝试做该实验,也通常会遭遇失败。不过,由于在预测结果不具有统计学显著性时,实验结果不会获准发表,因此人们无法通过重复实验去验证它。而且,即使有人发出质疑的声音,专家们也总能指出重复实验过程中的细微差别,作为跟踪研究失败的借口。他们的理由是:我们确信这个实验是有效的,因为我们进行并通过了统计学显著性检验。
现代医学与社会科学不是肠卜术,但是近些年来,一些唱反调的科学家不断发出越来越大的声音,向我们传递一个令人不安的信息:在科学界,可能还有更多“肠卜术”,只不过我们不愿意承认罢了。(www.xing528.com)
发出最大声音的是希腊人约翰·约安尼迪斯(John Ioannidis)。2005年,这位由中学数学明星蜕变而成的生物研究人员,发表了一篇题为“公开发表的研究成果大多不真实的原因何在”的论文,在临床医学领域引发了一场自我批评的狂风暴雨(随之而来的是一波自我辩解的风潮)。有时,作者为了哗众取宠,往往在论文标题中危言耸听,但这篇论文不属于此列。约安尼迪斯严肃地指出,医学研究和肠卜术一样,找不到任何有实际效果的内容,所有的专科就是一个个“毫无内涵的领域”。他认为:“我们可以证明,得到发表的医学研究成果大多是不真实的。”
约安尼迪斯肯定不愿意大费周折地完成这种“证明”工作,但是这位数学家的确有充分的理由,认为他的这个反传统声明并不是无理取闹。约安尼迪斯认为,我们在医学上尝试使用的介入治疗法大多不会起作用,我们所检测的各种关系大多是子虚乌有。以基因与疾病之间的关系为例。基因序列中有大量基因,其中绝大多数都不会引发癌症、抑郁症或肥胖症等,至少人们没有直接观察到基因会导致人们患此类病症。约安尼迪斯请大家考虑基因对精神分裂症的影响,由于这种疾病有遗传的可能,人们几乎可以肯定是基因在起作用。但是,起作用的基因位于基因序列的什么位置呢?研究人员可能会普遍撒网(毕竟,我们所处的是一个大数据时代),对10万种基因(更精确的名词是“遗传性多态现象”)进行检验,以期找出与精神分裂症有关的基因。约安尼迪斯指出,在这些基因中,大约有10种真的会对精神分裂症产生影响。
那么,其余的99990种基因呢?这些基因与精神分裂症没有任何关系。但是,其中的1/20或者说5000种基因,会顺利通过统计学显著性检验。换句话说,在人们欢呼“天啊,我发现了精神分裂症基因”时,在这些可能获准发表的研究结果中,虚假结果的数量是真实结果的500倍。
而且,要得到上述结果,我们还得假定所有真的对精神分裂症有影响的基因顺利通过检验。从前文讨论的莎士比亚与篮球的例子可以看出,如果研究方法的功效不足,真实结果就完全有可能被认定为不具有统计学显著性而被排除在外。如果研究功效不足,真正会产生影响的基因可能会有半数顺利通过显著性检测,也就是说,在所有通过检验的导致精神分裂症的那些基因中,只有5种基因会真正致病,而浑水摸鱼、仅凭运气顺利通过检验的基因却有5000种那么多。
在方框图中画圆是直观了解相关情况的一个有效方法。
图中的大小圆圈代表该类型基因的数量。左侧表示阴性检验结果,即没有通过显著性检验的基因;右侧表示阳性检验结果。位于上方的两个格子表示的确对精神分裂症有影响的、为数不多的基因,因此,右上格子中的基因是真阳性(这些基因对精神分裂症有影响,检验结果也表明它们有影响),而左上格子中的基因则表示假阴性结果(这些基因对精神分裂症有影响,但检验结果表明它们没有影响)。下方的两个格子表示对精神分裂症没有影响的基因,大圆圈表示真阴性结果,小圆圈表示假阳性结果。
从图中可以看出,问题产生的原因并不是显著性检验。显著性检验百分之百地完成了它的使命。在对精神分裂症没有影响的基因当中,顺利通过检验的极少,而我们真正感兴趣的那些基因仅有半数在检验中顺利过关。对精神分裂症没有影响的基因在数量上占据优势,因此,尽管相对于表示真阴性的圆圈而言,表示假阳性结果的圆圈不是很大,但是比表示真阳性结果的那个圆圈大得多。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。