2015年10月,全世界的食肉人士得到了一个坏消息:加工过的肉类可能致癌。《每日快报》的标题有点吓人——“培根和热狗都致癌——几乎和吸烟一样糟糕”。《卫报》(Guardian)也不甘落后,标题是“加工过的肉类有致癌风险,其危害堪比吸烟与石棉”。这些新闻标题都来自国际癌症研究机构(International Agency for Research on Cancer, IARC)一则令人揪心的消息。该机构隶属世界卫生组织,职责是研究导致癌症的各种因素。该组织宣称,加工过的肉类令肠道癌症的风险增加18%,由此将其列为1类致癌物,吸烟与辐射也同属此类。这份公报中还将红肉列为2A类致癌物,也就是对人类“可能致癌”。肉类和抽烟有着同样的致癌风险,这个消息立即引起了轩然大波。
不过,这些耸动的新闻标题都是彻头彻尾的胡说。IARC的分类系统晦涩难解,分类标准并不是风险的“程度”,而是有关该风险的“证据强度”。也就是说,即使两个事物的致癌风险相差十倍,也可能被划分为同一类。这种分类只能说明我们对一个东西存在危险性的有把握程度,而并不能说明它危险的程度。1类物质是那些存在明确致癌证据的事物,包括吸烟、日晒和酒精。2A类和2B类分别是“很可能”和“有可能”致癌的物质,也就意味着有关风险的证据有限或不够明晰。由于在哲学意义上难以证明问题完全不存在,所以2类物质几乎包括了流行病学中的所有因素。按照2018年的分类标准,唯一被认定为4类物质(很可能对人类没有致癌风险)的是用来制造瑜伽裤的己内酰胺。
这些内容听起来有悖直觉,不合常理,事实也确实如此。作为一名从事癌症研究的科学家,我能理解将风险分层的理据;但作为一名科普工作者,我也深知这种分类标准很容易造成公众的混淆与误解。如果告诉一名非专业人士,轮班工作或喝咖啡“有可能致癌”,他自然不会把这理解成“风险的证据不够有力也不够明确”。科普作家埃德·杨(Ed Yong)也曾说过,IARC“有两个突出的特点。第一,他们的目的是谨慎评估某些物质是否致癌,从杀虫剂到日晒无所不包,并尽量明确地表述可能存在的风险。第二,他们的表述很糟糕”。那么,撇开表述不清的问题不谈,加工过的肉类究竟有多危险呢?
为了回答这个问题,我们有必要先看看背后的数据。在英国,每1000人中就有66人在一生中患上肠癌。很少吃加工肉类的人群患病率为56/1000,而经常吃加工肉类的人群患病率为66/1000。也就是说,在每1000人中,最爱吃肉的人群患肠癌的人数要比不吃肉的人群多10人。所谓“相对风险”,就是指暴露组相对于非暴露组所增加的风险。在这个例子中就是(66-56)/56,也就是10/56,大约是18%,这就是IARC在新闻发布会上援引的数据。我们还可以从“绝对风险”的角度来讨论这件事。对于吃加工肉类和不吃肉的两个人群而言,一生中患上肠癌的风险之差为10/1000,刚好是1%。也就是说,爱吃加工后肉类的人一生中患肠癌的风险比从不吃加工肉的人高出1%。不可否认,第二个数据听起来就不那么惊悚了。
对概率数据的报道方式会在很大程度上影响我们的理解,也会影响我们相应的情绪反应。在有关健康与生死的问题上影响尤为巨大。很多人可能已经留意到,当今媒体正掀起一股潮流,那些通俗小报,以及某些本应更为严肃的大报,更倾向于将原本完整全面的信息简化成治癌/致癌两类话题。另外,即使报道的是完全相同的信息,如果相对数据比绝对数据更为惊悚,那么媒体就往往会选择更容易哗众取宠的相对风险数据。但是,这些数据很容易误导公众,媒体也应该让公众知悉绝对风险方面的信息。
过度关注相对风险的问题,并不仅限于媒体与世界卫生组织机构。在医药领域中,也存在类似这样很严重的统计过度补偿的问题。制药公司在报告药物有效性时也倾向使用相对数据,他们这么做其实是想让人们觉得他们的产品更有效。[1]举个例子,假如有2000名心脏病患者参加一项试验,其中1000人得到安慰剂,另外1000人得到一种新药。在随后一年中,如果服用安慰剂那组有5人出现心脏病,而服用药物组有4人患心脏病,那么绝对风险降低值只有1/1000,也就是0.1%。这样的结果算不上太好,意味着如果我们假定两组之间的差异并非巧合的话,医生让1000人服药只能避免1例心脏病而已。所以考虑到推广新药上市所需的成本,我们可能会采用好看一点的数据,也就是20%的相对风险降低值。
这类做法也常常出现在经济领域和政治领域中。人们常用统计数据进行各种错误的比较。如果一座价值20万欧元的房子在第一年贬值50%,而在第二年又升值了50%,就有人会声称这座房子的市场价值在第二年恢复如初了。这种说法显然是错误的。在第一年年末,这所房子的价值只有10万欧元,第二年升值50%后上涨到15万欧元,也不过是最初价值的75%而已。之所以会造成这样的错误,是因为两次50%的升降幅度是相对于不同的基准的,第一次是相对于最初价值,第二次则是相对于贬值后的价值。问题的关键是,我们不能把百分比数据简单进行加减运算,而应该充分认识到,这类数据常常是相对于不同数值而言的。
写到这里,我其实一直在有意回避一个模棱两可的棘手概念,那就是“统计学意义上的显著性”(statistical significance)。我们常常看到新闻标题警告公众,一些曾被认为无害的物质与癌症有着统计意义上显著的关联,或者声称,就统计学意义上的显著性而言,某些饮食可以降低痴呆症的风险。这类说法到底是什么意思呢?“显著性”也许是各门学科中最容易被误解的概念之一了,有时连科学家自己也常常搞错。假设我们开发了一种有助于改善偏头痛的新药,称为药剂X,它可以减少偏头痛的发生频率。与之对照,我们也会提出一个零假设,就是认定药剂X与偏头痛发生频率毫无关联。接着我们开展实验,将受试者分成两组——实验组和控制组,实验组得到药剂,而控制组得到安慰剂。当实验结束时,我们真正需要回答的问题是:药剂X是否确实有效,以及我们能否就此否定零假设?
要回答这个问题需要采用一些统计学方法,因为人是复杂多样的,两组中受试者的反应都会形成差异性的分布。在理想条件下,我们的样本应该能够完美地代表现实,但因为我们的受试者数量有限,这一点并不可能做到。某一组或两组中都可能出现异常值,影响平均值的准确性,对研究者产生误导。两组之间也可能存在偶然性的差别,因此要确定两者间的差异是否真实存在,我们还得采用统计学工具。如果实验设计合理、操作规范,运用统计学工具可以有效剔除无关信息,确证两组之间是否确实存在真实差异。当一个结果具有统计学意义上的显著性,就意味着它不可能是偶然产生的,也意味着这一结果是真实可信的。重要的是,统计学意义上的显著性只是表明药物确实产生了影响,但它并不一定意味着这种影响会带来实质性的效果,而后者才是我们日常所说的“显著”的意思。
如果遵循了这些步骤,为什么那么多声称存在的相关性到头来却并不存在或者是错误的呢?责任往往在科学家和医生身上,因为就连他们也无法避免犯错。尽管有争议的科研论文都要经过极为严苛的同行评审,但是,一些在统计学意义上模棱两可的结论仍有可能被遗漏。这方面一个典型的例子就是“自然疗法”(naturopathy)。自然疗法是替代疗法的一个分支,它包括反射疗法(reflexology)、顺势疗法(homeopathy)和颅骶疗法(craniosacral therapy)等内容,其核心原理是所谓的“活力论”(vitalism),即认为疾病或健康都是源于某种虚无缥缈的“生命力”。其实很久以前,实证研究就已经驳斥了这种说法,目前也没有可信的证据表明以上各种疗法确实存在什么治疗效果。尽管如此,哪怕在当今科学昌明的时代,这些观念依然广为流行。之所以会出现这类怪事,一部分原因无疑是大自然的吸引力,人们总会错误地认为这类疗法是没有副作用的。[2]自然疗法提出了一个看起来简单易行的健康方案,却很容易让人忘记一点:无论是医学还是我们人体都是非常复杂的。
令人奇怪的是,自然疗法反而坚称,科学证据表明相关疗法对患者的效果是在统计学意义上有显著性的。如果这些疗法在原理上站不住脚,在临床上也没有实际效果,那这些说法不就自相矛盾了吗?其实,这一切都是由于“统计学意义上的显著性”这个概念本身的微妙。如果希望统计方法能够揭示真实问题,就必须确保采用高质量的数据和具体情形下得当的分析方法,如果方法上不可靠,最终结果就是毫无意义的。自然疗法者总是津津乐道于三五项得到积极结果的研究,其实这些都是基于小样本的低质量研究。这一点非常重要,因为在小群体中,哪怕只出现一个异常数据,也会令整个研究发生偏差,群体越小,结论的可信度就越低。很明显,随着研究群体的增大,一些表面效果就会消失,实验的质量也随之提升,而广受追捧的所谓显著疗效不过是虚假的幻象而已。
有些实验报告患者确实感到了治疗效果,其实是一种“安慰剂效应”,更准确地说,这是“趋均数回归”的结果。[3]人们早就观察到,在衡量某一变量时,如果第一次的测量值过于极端,那么下一次的测量值往往会更接近平均值。比如,人们往往会在症状最严重的时候去求医问药。这个时候疾病处在极端的状态,随着时间的推移,情况会逐渐好转。可很多人仍然将病情的好转归功于弄虚作假的民间疗法,而不考虑到自己免疫系统的出色表现。诺贝尔奖获得者彼得·梅达沃(Peter Medawar)曾经说过:“如果一个人满足以下三条:一、身体不舒服;二、接受了一些试图帮他康复的治疗;三、病情好转了。那么他就会认定是治疗让他恢复了健康,任何医学原理都无法说服他怀疑这一想法。”
这也说明科学研究中有个问题尚未得到应有的重视:并不是所有的研究都是同样有效的。就算发现了统计显著性,也未必就意味着存在效果。令人遗憾的是,很多运用了统计学分析的研究,被毫无意义的显著性指标带入了歧途,比如在医学与基因学领域。2005年,约翰·约安尼迪斯发表了一篇标题语出惊人的文章《为什么大多数发表出来的研究发现是假的》(Why Most Published Research Findings Are False),得出了一些值得注意的结论。在医学领域,很多实验结果看似有显著性,其实不过是人为失误的结果,比如设计缺陷,研究动力不足,或者受试者数量过少而不足以得出有意义的结论。
约安尼迪斯在文章中总结了在评估研究结论时应谨记的6项指标:
1.在科学领域,研究规模越小,研究发现就越可能出错。如果样本容量太小,受试组的代表性就很差,出现“假阳性”的概率就会增大。自然疗法的支持者们依赖的就是此类研究,它们往往样本很小,研究结构的质量很低。
2.在科学领域中,效果量越小,研究发现就越可能出错。相关性固然重要,但效果量也同样重要。效果量衡量的是某一现象有多强烈,有助于我们了解所观察到的关系究竟是偶然发生的,还是具有实质性的意义。如果效果量很微小,那么所观察到的效果可能就只是碰巧产生的而已。
3.在科学领域中,受检验的相关关系类型越多,而最终被选择的相关关系类型越少,研究发现就越可能出错。简单来说,如果一项实验中出现了多种可能的相关关系,那么其中有些相关性可能就是偶然发生的“假阳性”。当检验众多可能的相关关系时,研究者很容易犯“采樱桃”的错误,选择了那些实际上偶然发生的统计关联作为结果。
4.在科学领域中,实验设计、定义、结果及分析模式越灵活,研究发现就越可能出错。如果定义不够严谨,就可能出现偏差,原本“阴性”结论也可能会被解释成“假阳性”。
5.在科学领域中,涉及的经济或其他利益与偏见越多,研究发现就越可能出错。特别是在生物医药领域,投资人与研究结果之间常常会存在利益冲突,因此各种偏见的出现就在所难免。约安尼迪斯也明确指出,利益冲突并不一定就是钱。而科学家也可能受到意识形态的影响,在某些情形下,这也会左右最终的研究结论。
6.科学领域越热门(即参与进来的研究团队越多),研究发现就越可能出错。这一点似乎有悖直觉,却也是真知灼见。某个领域内的研究越多,原则上确实应该会提高研究的质量,但团队之间会发生激烈的竞争,结果反而会适得其反。在这种情况下,时间成了最为关键的要素,研究团队往往倾向于抢先发表尚不成熟的研究发现,于是该领域就会出现很多“假阳性”的结果。约安尼迪斯和他的同事们将这种研究阶段称为“普洛透斯现象”(Proteus Phenomenon)[4],意思是研究的结论常在正反两个极端之间迅速交替。(www.xing528.com)
这些细致而且令人忧心的研究发现,提出了一个紧迫的问题:如果大多数已经发表的研究发现都是错误的,那么科学研究还有什么用呢?研究如何才能有意义呢?我们首先要注意的是,约安尼迪斯批评的并非全部的科学研究,而是“采用不合理的策略,最后的研究发现仅仅基于一次研究,且以形式化的统计显著性作为衡量标准,通常都是p值仅低于0.05的”那些研究。在那些严重依赖统计相关性的研究领域里,这类问题无疑特别突出。但只要根据已有原则科学地规划实验,这类问题是可以有效避免的。比如,大型强子对撞机所记录的事件必须经过严格的统计学分析,才能判断是否确实发现了新的基本粒子。在粒子物理学研究中,统计显著性的标准阈值极度严苛,所以不可能发生“假阳性”情况。
不过,约安尼迪斯所说的问题在医学和生物医学的一些领域里却是司空见惯的。在这些领域里,复杂的交互关系在所难免,于是研究者往往采取“以发现为导向”的研究策略,首要目标是探索新发现,而不是提出严谨的假设小心求证。这种思路就很容易导致错误或虚假的发现——原本只是偶然的结果都被当成了重要发现。之所以会出现这类问题,一部分原因在于人们设定的显著性的判定值——通常被称作p值,其实是任意的。若p值低于0.05,通常就认为结果具有显著性,很多研究者为此苦心孤诣、孜孜以求。可问题在于,这个数值其实并不是衡量研究质量的真实指标,更算不上是理想指标了。这一数值是生物学家罗纳德·费希尔(Ronald Fisher)在20世纪20年代率先使用的,当时只不过是把它作为统计学上非正式的经验法则,用来确定一项结果是否值得再次考察。[5]
在那个时代,人们开始逐步重视用数学思想进行统计分析,这一潮流的倡导者是费希尔的宿敌——波兰数学家耶日·内曼(Jerzy Neyman)和英国统计学家埃贡·皮尔逊(Egon Pearson)。内曼和皮尔逊正式提出了“统计功效”等概念,但他们却对费希尔的创新嗤之以鼻。内曼更是认为费希尔的创新“在数学意义上比没用更糟糕”,而费希尔反唇相讥,说内曼的研究方法是“学术自由的噩梦”。其他统计学家不愿参加两派纷争,就把他们的框架简单杂糅在了一起。从此,费希尔的经验法则被强行并入内曼和皮尔逊的数学框架,且就此被抬高到了本不应该有的重要地位。
此后这一标准被不断滥用和误解。有些研究者很善于挖掘数据,会随意地寻找各种具有统计显著性的数据关系,却不会认真考虑这究竟是真正有意义的关系,还只是偶然现象。对于这样的做法,英国皇家学会院士大卫·科洪(David Colquhoun)早就提出过严厉的批评,他说:“显著性测试的用处就是让你不至于丢人现眼,免得那些不配发表的文章给发表出来了。”有人还提出用“统计假设推断检验”(Statistical Hypothesis Inference Testing)这个术语来指代这类数据挖掘的做法,原因是这个术语的缩略词(SHIT)可谓恰如其分。无论如何,在不了解作用机理也未掌握深层机制的情况下,研究者就必须小心谨慎地处理相关关系。为追求显著性结果而对数据进行大量的“事后检验”(post-hoc tests),确实可以获得想要的结果,只不过这些结果远非有价值的发现,而且通常都毫无意义。正如经济学家罗纳德·科斯(Ronald Coase)所说的那样:“如果你持续不断地折磨你的数据,那它一定会招供。”当然,这种招供很可能根本靠不住。
既然如此,为什么一些科学家还要发表证据不足、值得怀疑的研究结果呢?一部分原因在于不是所有的科学家都具备足够的统计学素养,而另一个原因则更让人不安:科研领域的发表偏见给科学家们造成的压力。科研期刊总认为负面的研究结果没有发表的价值,这就给了研究者极大的压力,迫使他们去寻找现象之间的各种关联,甚至有时不惜捕风捉影、无中生有。这么做未免目光过于短浅,事实上,零结果与显著性发现一样都有价值,都有助于我们深入理解研究问题。相比于提出一些错误的结论,确认某些药物确实无效要更有用。
遗憾的是,近年来所谓“不发表就淘汰”的思想给科研单位造成了很大的破坏。如果科学家看似未能产出足够量的“阳性”结果,那就不会得到科研经费。这种重数量轻质量的奖惩机制其实伤害了我们每一个人。为此,我们必须谨慎对待那些单一的研究,特别是医药方面的研究,和其他关注相关性而非内部机制的研究领域。在这些领域里,具备统计显著性的结果未必意味着结果是“真实”的——这一点我们绝不应该忘记。
值得一提的是,我和约翰·约安尼迪斯曾经合作研究过“不发表就淘汰”对科学界发表成果的可信度所造成的影响。不难想象,我们研究的结果表明现行的模式下,并不足信的结果往往比那些严谨扎实的研究更能够得到青睐,这导致可信度的问题一直存在。事实上,只有在重复研究的基础上,科学才能蓬勃发展;没有重复研究,孤立的一个结果根本就站不住脚。正因如此,这一问题在近几年也引起了热烈的讨论,同时也推动了“开放获取与开放数据”(the Open Access and Open Data)运动,鼓励科学家不仅仅提交支持自己结论的数据,也提交全部的研究结果,无论是正面的还是负面的数据。
我们现在还能用一些强大的统计工具来横向比较多项研究,特别是那些结果相互矛盾,或研究质量与力度参差不齐的研究。其中一个方法叫“元分析”(meta-analysis),简单来说就是对所有研究进行研究,评估这些研究的质量,帮助人们更清楚地审视各种相关的数据。这种方法至关重要的地方在于,它要求大批量的研究,这样才能保障研究的质量和规模。也正因为如此,那些孤立的研究结果充其量只能是初步发现,随时有可能变。科学发现大多都只是暂时的成果,而且永远在不断变化之中,这绝非科研的局限,而是科研的内核。科学研究的基础就是不断的自我修正。
在这几章中,我们介绍了统计数据与各种数字如何混淆视听,还有逻辑缺陷又是怎样掩人耳目、引人误入歧途的。即便报道准确,脱离具体情境的纯粹数字也很容易给人造成错误的印象。若仔细甄别、严谨推敲,也不难发现这些数字中包含的真实信息。统计学是一个强大的工具,但公众对统计数字的理解往往不尽如人意。如果希望统计分析能够有助于我们的研究,我们就必须提高有关素养,避免因为无知而误解和滥用统计数据。
统计数据的滥用还是煽动家的拿手好戏。他们时常在论述中故意掺杂一些错误的数据解读,用看似深奥神秘的数字给自己增加底气。我们不妨看看时下的政治话语,其中不乏政客们咆哮着用断章取义的数字相互攻击。他们一心只顾着在论战中获胜,至于这些数字该如何解读,又是否准确可靠,他们根本毫不知情,也并不关心。这种情形着实让人心寒。人们不禁要问:怎样能够避免这一切呢?在个体层面上,最好的对策是增强意识,了解统计数字的用途与滥用情况。就全社会而言,公众普遍对数字心存敬畏,但我们更应该警惕那些唯数据论的做法。正因为我们在数字能力方面缺乏自信,才没有人敢质疑数字滥用的问题。事实上,基本的统计原理并不复杂,本章中也有所介绍,就算你不是统计学专家,也可以发现日常生活中那些值得警惕的数字陷阱。
有充分的证据表明,如果统计数据用真实情境下的数字来解释,就更容易被人理解,这种方法也被称为“固有频率报道”。比如,如果想要告诉病人服用某种药物产生某种副作用的概率是10%,那么比较好的说法是“在100名服用此药的患者中,我们预计会有10人在治疗过程中会产生这种副作用”,以帮助病人了解这一数字的具体情境。固有频率报道对专业人士也大有裨益。在前文有关贝叶斯定理的例子中,我们看到数量惊人的医学专业人士都错误地估算了患者感染HIV的概率。可如果我们采用第12章中的树状分叉图来报道固有频率,就可以显著减少人们对感染病毒概率的误解与误读。采用这样的方式呈现数据,几乎所有医生都能得出正确的结论,而当他们看到的仅仅是统计数字的时候,情况则正好相反。
谈了这么多,最关键的是这样一个事实:尽管统计学看起来简明直观,但同时也隐藏着大量的微妙性和复杂性,我们完全可能被它们迷惑而犯错。我们经常会漏掉一个重要的步骤,那就是在合理的情境中正确地解读那些数字的意义。当我们心存疑虑时,就应该继续追问,找出那些诱人的统计数据背后真正的含义,再做出合理的推断。如果没有这些严谨扎实的考察过程,那些混杂的数字与错误的观念就很可能将我们引入歧途。
不加审视地单纯罗列一些数据原本就是毫无意义的,而这些数据还常常会火上浇油,让原本就爱哗众取宠的新闻更具有煽动性。在这种情形下,误导人心的并不仅仅是统计数据本身,还有我们对数据来源不加甄别的盲目信任。陈述数据的那些故事也会影响我们的感知和判断。我们每天都会接触到海量错综复杂的数字,其主要来源是大众媒体,所以媒体的作用不可低估。如果我们想知道自己究竟多么容易被误导,又该如何避免受到误导,就应该了解传统媒体与新兴媒体究竟是如何影响我们每个人对世界的理解的。
[1]本·戈达克(Ben Goldacre)的书《医药界黑幕》(Bad Pharma)揭露了制药公司在日常行为和试验报告中的种种问题。
[2]曾经是物理学家的喜剧演员达拉·奥·布莱恩(Dara Ó Briain)关于顺势疗法有这么一句俏皮话:“顺势疗法的优势是你永远不会服用过量。不过,你可能会被淹死。”
[3]有确凿的证据表明,安慰剂效应其实非常小,在所报告的虚假干预的效果中,趋均数回归起了很大作用。
[4]普洛透斯是希腊神话中的海神,外形多变,以至于没有人能捉住他。——译者注
[5]由于本章内容的技术性较强,我对于p值这个概念介绍得较为简略。这里是把它定义成某种检验参考,以判定实验结果是否值得继续研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。