1973年,加州大学伯克利分校被控性别歧视。从表面来看确实证据确凿:申请入读这所著名学府的男性录取率是44%,而女性录取率只有35%。这个差异显得非常可疑,暗示了录取过程中可能存在性别歧视。于是有人提出了法律质疑,意在揭发并扭转这种偏见。可随后的调查却揭示出一个奇怪的结果:如果按照系别一个一个分析录取数据的话,会发现“在大多数的系,女性的录取率稍高于男性,而且差异明显”。
为什么会出现这样两个看似相互矛盾的结论呢?如果女性比男性更有可能(哪怕只是稍稍多一点可能)被某个系录取,为什么最初的数据没能反映出这个情况呢?要解决这个自相矛盾的难题,我们需要深入分析大学录取的分层数据,而其中深藏的规律在“录取百分比”的数据中并不那么明显。平均而言,男性倾向于申报工程类的系,相对竞争不那么激烈,符合要求的申请人的最终录取率就比较高。女性申请人则正好相反,她们更愿意申报那些竞争非常激烈的系,例如英文系。
因此,伯克利一案的问题并不在于录取中赤裸裸的性别歧视,而是不同性别在选择学术方向的时候存在的一个“潜在变量”,也叫“混杂变量”,从而导致整体录取率发生了偏差。该研究的作者指出:“对偏见的衡量往往比想象的更困难,有时候证据会与我们的期待相互矛盾。”当然,这一切并非刻意为性别歧视洗白,几位作者也明确表示:“即使在研究生招生制度中没有发现存在明显的偏见,也并不意味着教育过程中的其他方面或有关的职业活动中绝对没有偏见。”加州大学伯克利分校的调查结果确实有些出人意料,其中的关键就是“辛普森悖论”(Simpson's paradox)这一有悖于直觉的现象,即在分组数据中存在看似清晰的规律,但合并各组后这个规律就消失了,甚至还可能出现相反的结果。
我们当前一个有趣的问题是,获取数据太过容易,而对这些信息和趋势的分析与解释又太过肤浅,最后往往得出与现实相矛盾的结论。辛普森悖论通常出现在政治、社会与传媒领域中,一旦从概率数据中得出不正确的因果关系,就会犯下这个错误。举例而言,人们在医院去世的比例远远超出在邮局的比例,若由此推断邮局比医院更适合治病救人,那就大错特错了(这当然也是再明显不过的)。众所周知,仅凭统计数据是很难推断因果关系的,哪怕一个小小的混杂变量就可能让人误入歧途,得出荒谬的结论。关于这个问题有一个非常经典的例子,那就是溺亡事故似乎总是随着冰激凌销量的提高而增加。这两者之间固然存在着明确而显著的统计学关系,但由此认为是冰激凌导致了溺亡,这简直就是胡言乱语。这里的潜在变量是气温的上升,这才是导致冰激凌销量大增和水上活动事故增加的原因。
在形形色色的陷阱中,最容易滋生错误的要算是因果关系谬误了。我们在前几章曾介绍过一大类的逻辑谬误,叫“后此故因此”谬误,可一旦深藏在统计数据之中,这类谬误就不那么容易识别了。在争论或讨论中发现因果关系谬误通常并不难,可在涉及统计数据的情况下,我们就显得数字能力普遍不足,以至于时常对这类谬误视而不见。公众对统计信息和趋势数据盲目追捧、奉为圭臬,殊不知要想从中归纳出一个确凿的因果关系其实非常困难。面对众多的混杂变量,我们需要非常小心谨慎地加以分析,才能解析出深层的变量关系与规律,而有时也可能一无所获。有句话我们不能忘记:“相关性并不意味着因果关系。”
相关性也许意味着存在某种联系,但是辛普森悖论和无处不在的潜在变量提醒我们必须小心应对这一信息,如果解读错误,就可能对不明真相的人造成误导,给他们留下完全错误的印象。统计学家大卫·R. 阿普尔顿(David R. Appleton)和同事们曾举过一个有趣的例子,是关于20世纪70年代与90年代英国维克汉姆(Whickham)小镇女性死亡率的数据。调查发现,不吸烟女性的死亡率是43%,而吸烟女性的死亡率只有38%。在毫无经验的人看来,这似乎说明吸烟在某种意义上是有利于健康的。可当我们考虑到辛普森悖论后,这种耸人听闻的结论就不攻自破了。研究者按照不同年龄分组分析,结果发现,在各个年龄段,吸烟都是有害健康的。产生混乱的原因很简单:各年龄段烟民的比例不一样,而年纪很大的女性当中相对来说有更大比例的人不吸烟,这部分的高死亡数据,拉高了全年龄段非吸烟女性的死亡率。通过这类例子我们不难发现,别有用心的人完全可以运用种种手段来操控数据,扭曲真相。
事物之间存在千丝万缕、错综复杂的关系,如果没有分清混杂变量,就不能贸然将相关性视为因果关系,这样不仅草率,有时甚至是错的。另外,即使不存在混杂变量,我们也应该小心分析各种相关性,从中发现真正的原因。我们会发现,用雨伞和下雨天存在相关性,这没错,但由此认为是雨伞导致了下雨,那就大错特错了。有时候,这些牵强附会的虚假关联还会带来喜剧效果。泰勒·维根(Tyler Vigen)就曾在毫不相干的两组数据间发现了很强的相互关系,例如美国的奶酪消费量和床单缠绕致死事故的数量相关;自缢身亡的数量与北卡罗来纳州的律师数量也明显相关。美国一个具有讽刺意味的宗教团体“飞面神教”(the Flying Spaghetti Monster)的创始人鲍比·亨德森(Bobby Henderson)也曾指出,全球海盗数量与全球平均气候之间存在统计学意义上显著的反比例关系,由此推论,海盗可以避免全球变暖,他宣称“海盗是绝对神性的体现”。[1]
说到这里,有必要先做一个说明。我不希望让读者产生一个错误的印象,认为统计上的相关性是毫无意义的数据。事实正好相反,统计上的相关性可以被视作侦探小说里的重要元素之一。假设发生了一系列罪案,统计相关性表明,某一嫌疑人在每一起案件发生时都在这个地区出现过。这一点本身并不能直接证明这个人有罪,但也为警方的工作开了个好头,以便他们决定是否需要进一步展开调查。同样道理,如果这位嫌疑人的行动轨迹和案件之间根本不存在任何关系,那我们就不必再多做考虑了。唯一值得警惕的是,这类统计工具必须运用得当,力求避免各种混杂变量的影响。让我们再回到前面所举的破案的例子中。在大量谋杀案中,杀手与验尸官的活动范围有可能会呈现某种相关性,但是,如果没有足够充分的理由认为这位验尸官是一名昼伏夜出的连环杀手,那我们也并不能仅仅根据这个相关性将其治罪。
我们必须小心谨慎地分析统计信息,才能避免得出错误的结论。在19世纪中期,瘴气致病论仍然是医学界的主流想法,也就是认为疾病是由污秽的空气传播的。当时的社会改革家埃德温·查德威克爵士(Sir Edwin Chadwick)曾说过这样一句俏皮话:“所有的臭味都是病。”正如前几章有关疟疾的讨论中所说,当时人们普遍相信瘴气致病的说法,而好几次瘟疫爆发时都有恶臭传播的情况,让人们对此更是深信不疑。查德威克当时是为伦敦城中的穷人争取权益的社会活动家。1842年时,他已经敏锐地发现,卫生条件是一个重要的健康问题。在他的监督下,伦敦的城市排水委员会(the Metropolitan Commission of Sewers)开始逐步改善整个伦敦城的排水系统,关闭了20万个污水池。
令人奇怪的是,尽管瘴气致病论是错误的,排水系统改造工程却在一段时间里反而让人们对此更加深信不疑了。人们发现,在关闭了污水池的地区,暴发霍乱的次数减少了。这种关联非常显著,却也有误导性。有人认为这充分证实了糟糕的空气是各种疾病的源头。几乎在同一时间,有关疾病源头的相同想法,以及灾难性疫情的爆发,让巴黎也开始进行城市改建和排水系统改善工程。正是在这几次疫情暴发的推动下,乔治-欧仁·奥斯曼(Georges-Eugène Haussmann)开始重建巴黎城。在他的精心设计下,巴黎不再像从前那么拥挤阴暗,城市里建起了宽阔美丽的大道与林木葱郁的花园,成了如今我们心中的“光之城”。
早在那个时期,就已经有一些人觉得瘴气理论有问题,内科医生约翰·斯诺(John Snow)就是其一。到了1854年,伦敦的排水系统还没有延伸至该市的索霍区,而急速增长的居民数量早已经让这里的居住空间变得十分局促。污水池相应地不断增多,直至超出了城市的承受能力。1854年8月31日,一场暴虐的霍乱疫情在索霍区的宽街一带爆发。短短三天之内,就有127人染病死亡。城市陷入恐慌之中,在随后的一周内,大约四分之三的居民逃离伦敦。到了1854年9月中旬,这场瘟疫已经造成500人死亡,致死率达到12.8%。
当时主流的观点认为,糟糕的空气是致病的根源,但斯诺不接受这样的说法。于是,在亨利·怀特海德牧师(Reverend Henry Whitehead)的帮助下,他着手开始进行彻底调查。他走访了疫情的幸存者,还追踪了病患的行动轨迹,真相渐渐水落石出:他发现所有的病例都有一个关联点——宽街的一个水泵。斯诺对此深感困惑,同时非常怀疑瘴气致病的说法,但直至7年后,才由路易·巴斯德提出了开创性的细菌理论。可以说,19世纪的流行病学存在一个真空时期,人们并不了解疾病究竟是如何传播的。不过,斯诺在当时不仅认真绘制地图,还采用了先进的统计分析工具,最终成功将疑点锁定在了一只水泵上。
当然还有其他一些混杂变量。比如当地的僧侣似乎未受传染,住在酿酒厂的人也安然无恙。斯诺深入调查后发现,僧侣们只喝自己酿造的啤酒,同样道理,酿酒厂里的水也都得到了发酵处理。发酵过程杀死了霍乱病菌,这正好解释了为什么僧侣和酿酒师都没有得病。[2]此外还有些奇怪的特例,例如在另一处水泵附近也出现了多起死亡病例。斯诺和怀特海德多方询问深入探查,最终发现在这一区域染病的人们都出于口味偏好特意去宽街取水饮用。各种发现都将矛头指向了那只水泵,这才是真正的病源。基于这些重要发现,当地政府拆除了水泵的手柄,也终于控制住了疫情。
这场瘟疫共造成616人死亡,而斯诺和怀特海德高效迅捷的侦破工作无疑挽救了更多的生命。这一事件更大的意义也许是对科学界的影响:“死亡地图”(ghost map)成了流行病学发展中的一个关键时刻,这是一门横跨科学与医学两个领域的学科,关注疾病的爆发、传播与起因。流行病学研究表明,即便看似明显的相关性也必须谨慎检验,以免将其他因素误认作疾病的根源。从医学研究的角度来说,索霍区的霍乱疫情也为“瘴气论”敲响了丧钟,因为斯诺发现的水泵强有力地证明了水才是传播霍乱的真正元凶,而并不是像大家以为的空气。仅仅数年后,科学界正式发现了微生物,过时的“瘴气理论”终于被盖棺论定,人类也由此迈进了当代医学的大门。
人们后来才了解到这场疫情暴发的原因。位于宽街的这口水井正巧位于一个污水池上方一米多,受到污染的粪便病菌通过渗透作用进入水源,开始向周围肆虐传播。对于政治意识比较敏感的人们而言,这场瘟疫中还有一个细节值得玩味。当眼前的危机稍稍平息的时候,当地政府断然否定了斯诺的证据,还换上了水泵手柄,全然不顾再次暴发疫情的危险。如此卑鄙无知的做法,完全是因为当局因政治考虑而表现出的胆小怕事的办事风格,尽管眼前的证据无可辩驳,但接受这些证据就等于承认了粪口传播的可能性。在当时的政府官员看来,这个说法过于恶心,公众无法理解。这也反映出长久以来的政客们根深蒂固的恶习:公众舆论比科学证据更加重要,往往因此不惜损害公众的利益。
当然,并非只有政客才不愿接受那些令人难堪的统计数据,时至今日依然有不少人持有类似的想法与态度。硅谷宠儿伊丽莎白·霍姆斯(Elizabeth Holmes)走上又跌下神坛的故事就是一个当代的例子。年轻时的霍姆斯少年老成,很早就表现出了创业方面的天赋。她在高中时代就已经创立了自己的第一家公司,向中国的大学出售C++编译器。2004年,年仅19岁的她从斯坦福大学辍学,把学费变成了一家新公司的种子资金。她的这次创业有一个崇高的目标:要彻底变革美国的医疗保健体制。为了表明心志,她给自己的公司取了一个新名字“Theranos”,这是把“治疗”(therapy)和“诊断”(diagnosis)两个英文单词混合起来。可这个名字后来变得臭名昭著。
她很快结识了很多有意投资热门医疗领域的风险投资人。到当年年末,Theranos已经获得了600万美元的投资,到2010年时已经吸引到了920万美元。可实际上这家公司形迹可疑,甚至连一个像样的网站都没有。这一切当然都是有预谋的。霍姆斯视史蒂夫·乔布斯(Steve Jobs)为偶像,她竭力打造出尖端高科技的形象,甚至也穿着乔布斯那样的高领衫,也和他一样高度保密,禁止员工与别人讨论工作项目,甚至连员工内部相互讨论也不被允许。公司上下每项决策,事无巨细,都必须经过她的批准。尽管公司上下守口如瓶,还是有消息传出,说投资人的经费都用于开发一个诱人的概念:只需几滴血就可以诊断出多种疾病的简单检测,有望在未来让人们免于承受扎针之苦。(www.xing528.com)
霍姆斯向投资人保证,这项测试既快又准。只需小小一滴鲜血,Theranos就可以诊断出几十种不同的疾病。董事会里个个都是大人物,包括政坛大亨亨利·基辛格和威廉·佩里(William Perry)。随着新公司渐渐羽翼丰满,霍姆斯也在一片赞誉声中走向神坛,金钱与名声随之而来。大众媒体也对她的个人神话大做文章,铺天盖地的都是偶像崇拜般的报道与评价。霍姆斯许诺将从根本上改变疾病诊断行业,此番雄心壮志与她的自信风度令大众媒体神魂颠倒,《福布斯》杂志、《财富》杂志和《华尔街日报》纷纷刊登了她的封面故事,并把她称为“下一个史蒂夫·乔布斯”。
2014年,Theranos的市值已经达到90亿美元,而霍姆斯持有一半的公司股份,《福布斯》杂志估算其个人所拥有的资本净值高达45亿美元,并宣布她已经成为全球最年轻的白手起家的亿万富翁。霍姆斯的雄心并未止步于疾病诊断领域,她还想借着消费者选择权的名义,与连锁百货公司沃尔格林(Walgreens)联手,把血液检测服务搬进百货公司。霍姆斯很快就清除了业务扩张方面所面临的一些棘手的法律障碍,2015年,她参与编写了一分亚利桑那州的议案,议案规定病人无须医生意见就可以订购血检服务。霍姆斯对此兴奋不已,宣称这项新议案“让每个人能直接掌控自己的健康”。不过,较为敏锐的观察者也注意到,这项议案对Theranos公司而言无疑是一笔巨大的财源,Theranos为公众提供的正是血液检查项目。而他们之所以如此野心勃勃,是因为拥有了一个神奇的设备:爱迪生检测机(the Edison Machine)。
尽管这项技术广受追捧且吸金无数,但科学界毫不掩饰他们对此的疑虑。Theranos以不利于公司业务为由,拒绝透露这项所谓革命性测试技术的任何细节。但对科学家来说,这个理由非常空洞无力。2015年《美国医学协会杂志》(Journal of the American Medical Association)刊登了一篇评论,作者约翰·约安尼迪斯(John Ioannidis)不仅批评了这项“鬼鬼祟祟的检测”,还对大规模推广诊断性检测的理念表达了忧虑。他认为:“主要的动机似乎是为了开发产品与服务,而非出于研究目的报告新的科研发现。”有此疑虑的并非只有约安尼迪斯一人,还有许多科学家也都对此持保留意见。后来更是惊爆内幕,原来爱迪生检测机的结果很不可靠,Theranos用的竟然是竞争对手的机器。但霍姆斯的麻烦还不止于此。普利策奖获奖作者约翰·卡雷鲁(John Carreyrou)在《华尔街日报》上发表了一篇措辞尖锐的调查文章,讽刺的是,仅仅数月前这份报纸才刚刚刊登出了一篇大肆吹捧霍姆斯的文章。
Theranos立刻摆出强硬姿态予以回应,谴责那篇文章是无良新闻,并说还有心怀不满的员工从中作梗。尽管气势很盛,但这番辩驳毫无说服力,在短短几周的时间里,零星的质疑声就汇成了抨击的洪流。2016年1月,美国医疗保险和医疗补助服务中心(the Centers for Medicare and Medicaid Services, CMS)公布了他们对Theranos公司实验室设备的调查结果,由此揭开了惊人的内幕:Theranos公司的检测结果很不准确,有可能“直接危及患者的健康与安全”。2016年后期,Theranos公司受到制裁,并禁止霍姆斯在至少两年内拥有或运营任何一个实验室。其他调查进一步对爱迪生检测机的结果提出质疑,迫使Theranos公司宣布大量检测结果无效。曾经的合伙人沃尔格林迅速抛弃了这家公司,随后还就Theranos违反合同造成的损失索赔1400万美元。
刑事调查也随后跟进,有大量证据表明Theranos公司在设备准确性方面曾经误导政府监管机构与投资人。这家公司的命运急转直下,它曾经成功改变了亚利桑那州的法律,如今却被亚利桑那州检察长告上法庭,罪名是在血液检测设备方面存在“长期处心积虑的欺诈行为与失实陈述”。再往后,Theranos公司解雇了员工,很快关闭了实验室,在每一次调查之后都兵败如山倒。2016年6月,《福布斯》杂志重新评估Theranos公司和霍姆斯本人的净市值,这次的结果应该更接近实际情况:0美元。
爱迪生检测机不过是一个高级的“土耳其机器人”[3],看似光鲜精巧,实则玩弄的是忽悠人的伎俩。这场轰动一时的闹剧已经被写成了书,书中道尽了人性中的虚伪、愚蠢与狂妄。[4]但我们更应该注意这个故事背后的重要道理。Theranos公司之所以能够平步青云、扶摇直上,很大一部分原因是他们能够聚敛大量的财富,但警钟早就应该敲响了。最明显的警示是,他们声称用极少的血液就能够完成准确的检测。而事实上,化学和物理知识告诉我们,区区几滴血根本检查不出什么结果,而这也是大多数人怀疑的原因。当然,这也并非完全不可能实现——也许爱迪生检验技术确实在微流体领域取得了开天辟地的巨大进步,吸引投资人的也正是这一点。
之所以说Theranos公司所声称的检验早就应该敲响警钟,其中还有另一个更为隐秘也更为致命的原因。高科技领域的投资人如此精明,若他们能花上三分钟和一位统计学家聊聊,就完全可以避开这个陷阱。Theranos公司试图把他们简化医疗诊断的做法粉饰成一种美德,但这一想法自身是注定行不通的。为什么呢?我们首先必须明白,很少有人能单纯通过医疗检测来确诊某种疾病,往往是出现了某些疾病症状后,我们才会进行相关检测。在出现病症之前筛选疾病的想法听起来当然很诱惑,但在医学意义上往往是没有价值的。此外,在没有症状出现的情况下,这类检测还可能误导病人,甚至可能有损他们的健康。
为便于读者理解,我在这里介绍两个重要的概念。第一个概念是“敏感性”(sensitivity),也就是检测中阳性病人有多少是被正确识别的,因此这个概念有时也被称作“真阳性率”。如果一项检测中实际上有100个真正的阳性病人,其中有90人检测结果为阳性,那么这项检测的敏感性就是90%。另一个相对应的概念是“特异性”(specificity),也就是所有真正的阴性当中检测结果确实为阴性的比例,也被称为“真阴性率”。在理想条件下,一项检测的敏感性应为100%(真正的阳性都能检测出来,无一漏报),且特异性也为100%(真正的阴性也都检测为阴性结果,无一误报)。可惜我们所生活的世界远非如此完美,即使那些高质量的检测也无法达到这个标准。在实际情况下,敏感性和特异性均高于90%即可被认作是优质检测了。关键在于,孤立地看待这两个数字是不能确定检测是否是合格的,否则会非常可疑。
我们在上文曾讨论过的HIV检测就是这样一个例子。检测看似有着近乎完美的敏感性,但仍会把极少数携带病毒的阳性病例漏报为阴性结果;即便特异性也高达99.99%,依然会在低风险人群中造成50%的虚假阳性报告。任何检测的诊断准确性都与敏感性和特异性这二者密不可分,因此在解释数据时要格外谨慎。在有些更为复杂的情况下,这些指标与疾病的患病率是相互独立的,所以一项检测的预测结果还取决于疾病的普遍程度,就必须小心运用贝叶斯定理来进行演算。不考虑其他因素,没有章法地进行诊断,这样做本身就有问题。对此,埃莱夫塞里奥斯·P. 迪亚曼迪斯(Eleftherios P. Diamandis)曾经写过一篇措辞严厉的文章进行抨击,简明扼要地剖析了其中的问题:
假设一位非专业人士的前列腺特异性抗原(PSA)指标为20ug/L,他可能会根据这个数据推断自己有超过50%的可能性罹患前列腺癌,于是会要求做活组织切片检查。可如果他前几天的PSA指标是1ug/L,那么他患癌的概率就几乎是零。他的PSA指标突然上升的原因很可能只是急性前列腺炎,一种并不凶险且可以治愈的疾病而已。“孕检”结果呈阳性的男性也会倍感困惑,但有经验的医生就会考虑睾丸癌的可能性。
霍姆斯的核心主张是实现所谓的“医疗民主化”,也就是让病人自己进行检测。可她这么做就等于无视了医生要求病人做特定检查的根本理据,也限制了接受筛查的人群规模。诊断的筛查网越宽泛,虚假阳性的比例就越高。Theranos公司野心勃勃地向世人许诺,他们可以用一滴血检测出30种不同的疾病,但其实这么做只会让事情更糟,因为同时进行多项独立检测会显著增加出错的概率。具体来说,如果每一项检测的特异性是90%,那么在总共30项检测中,至少出现一项虚假阳性的可能性就高达95%。就算我们能够设法将每项检测的特异性提高到99%,至少出现一项虚假阳性的概率依然高于25%。这是多重独立检验自身固有的缺陷,每多增加一项检测都会降低预测最终的准确度,直至最后全都是毫无价值的干扰噪音。
即便真有功能如此强大的神奇机器,按照统计学的基本现实,Theranos公司的美梦也不会变成现实。对一大批患者进行一连串检测,又缺乏相关的先验信息,再用这样的检测结果来预测他们的健康状况,这是毫无理性、愚蠢至极的做法。爱迪生检测机根本不能免除人们求医问药的麻烦,反而会让他们陷入杞人忧天的无谓恐惧之中。最终,病患、立法人和投资人都将矛头指向了伊丽莎白·霍姆斯。毫无疑问,她的很多言论都无异于欺诈,当然,她面对各种质疑所做的辩解也是含混不清。话又说回来,这场Theranos的闹剧也并不能全部归咎于霍姆斯一人。如果当初那些投资人能够尽心尽职,提出一些基本的质疑,那他们也不会变得如此鬼迷心窍。有一句警语很适合用在这里:“蠢人易失财。”
[1]尽管这只是一个刻意为之的荒唐玩笑,但是像索马里这些海盗肆虐的国家所制造的二氧化碳确实低于其他富裕国家。这里面的原因更可能是与贫穷和工业落后有关,但我也愿意像这样随便找个借口,就能够像16世纪的海盗那样四处闲逛。
[2]这是关于水质的重要发现:如果不确定水质是否安全,宁可喝啤酒。
[3]所谓“土耳其机器人”(Mechanical Turk)是一种据说会下棋的机器,制造于1770年。在随后将近84年里,它击败了从拿破仑到本杰明·富兰克林等很多人。其实这不过是一个精巧的骗局,机器里躲藏着一名棋手而已。历史上有不少世界顶级的象棋大师都曾担任过这位深藏不露的棋手。
[4]目前已经有人买下了Theranos公司故事的电影版权。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。