很明显,把“p<0.05”等同于“对”,以及把“p>0.05”等同于“错”,这两种做法都是不对的。人们凭直觉认为归为不可能法是一种有效的方法,事实也的确如此。但是,在挖掘数据背后隐藏的科学真理时,它并不能充当行为准则。
那么,我们还有什么别的选择呢?如果我们做过实验,就会知道科学真理不会凭空出现或敲锣打鼓地找上门。从海量的数据中做出有效的推理,并不是一件轻而易举的事。
一个常用的简单办法,就是在显著性检验的基础上报告“置信区间”(confidence interval)。报告置信区间的做法需要我们稍稍拓宽概念范围,不仅考虑零假设,还要考虑一系列其他假设。假设我们开了一家网店,销售手工锯齿剪刀。因为我们是现代人(除非我们是制作手工锯齿剪刀的人),所以我们设计了一个A-B测试,让一半用户看到网站的当前版本(A),让另一半看到改进版(B)。在改进版页面点击“立刻购买”,人们会看到剪刀唱歌、跳舞的动画。我们发现B的销售额上升了10%,为此我们兴奋不已。但是,如果我们有丰富的促销经验,我们可能会担心:销售额上升会不会仅仅是偶然现象呢?于是我们计算了一下p值,结果发现,如果网站改版没有促销效果(即零假设是正确的),那么取得这个销售佳绩的概率仅为0.03%。[3]
我们难道要就此打住吗?如果我打算雇用一名大学生,在所有网站页面上添加剪刀跳舞的动画,我就会想了解这种方法是否奏效,同时,我还想了解它到底有多大效果。我看到的这种效果是否与我的假设相一致,也就是说,从长远看,这种方法是否只能让销售额提高5%呢?在这个假设前提下,我们可能会发现,出现10%的增长率的概率会大大增加。换言之,归为不可能法并不认为网站改版会使销售额提高5%这个假设是错误的。另一方面,我们或许会这样想:网站改版其实能把剪刀的销售额提升25%,但是由于运气不佳,销售目标并没有完全实现。于是,我们又计算了一下p值,结果为0.01。这个可能性太低了,所以我们不会再提出这个假设。
置信区间指的是,一系列顺利通过归为不可能法检验的假设与我们实际观察结果之间一致程度的合理范围。在本例中,置信区间的范围有可能是+3%~+17%。零假设规定的0并没有包含在内,这一事实正好说明,10%这个结果具有统计学显著性。
但是,置信区间的意义不只是这些。当置信区间是[+3%,+17%]时,我们可以肯定这种效果是存在的,但并不代表效果非常显著。另一方面,置信区间是[+9%,+11%]时,则表明可信程度高得多——这种效果不仅肯定存在,而且很显著。
即使实验结果不具有统计学显著性,即置信区间中包含0,我们也能从中得出很多信息。如果置信区间是[-0.5%,0.5%],则说明实验结果之所以不具有统计学显著性,是因为我们有充分的证据证明介入手段没有任何效果。如果置信区间是[-20%,20%],实验结果不具有统计学显著性的原因则在于我们不了解介入手段是否有效果,或者不清楚介入手段取得了积极效果还是消极效果。当从统计学显著性这个角度考虑时,这两种结果非常相似,但是在我们考虑下一步安排时,它们却会给出截然不同的建议。
科学界普遍认为耶日·内曼(Jerzy Neyman)是置信区间的创始人。内曼是波兰人,被公认为早期统计学领域的大人物之一。与亚伯拉罕·瓦尔德一样,内曼最初在东欧从事理论数学研究,后来把家搬到了西方,开始从事当时还是新鲜事物的数学统计研究。20世纪20年代末,内曼开始与伊冈·皮尔逊(Egon Pearson)合作。伊冈·皮尔逊继承了父亲卡尔·皮尔逊(Karl Pearson)在伦敦的学术地位,和父亲一样,他与费舍尔也互相仇视。费舍尔很难相处,喜欢与人争斗,就连费舍尔的女儿也评价道:“父亲从小就不懂得人情世故。”在费舍尔看来,内曼与皮尔逊是他的强劲对手,双方之间的冲突持续了几十年之久。
他们在科研上的分歧,几乎全部表现在内曼与皮尔逊用以解决和推断问题的方法上。[4]对于是否要根据证据推断出真相这个问题,内曼与皮尔逊的回答是不要提出这样的问题。这个回答的确令人吃惊。内曼与皮尔逊认为,统计学的目的不是告诉我们应该相信什么,而是告诉我们应该做什么。统计学的任务是做出决策,而不是回答任何问题。显著性检验仅仅是一个规则,告诉相关负责人是否批准某种药物投放市场,是否推行人们提议的经济改革,或者是否改版网站页面。
内曼和皮尔逊认为“科学不是以发现真理为目标”,这种哲学观乍一看非常疯狂,但是它与我们在其他领域奉行的理念存在某些共通之处。刑事审讯的目的是什么?我们可能会天真地回答:是确认嫌疑人是否真的犯了被指控的罪行。但是,这样的答案显然是错误的。取证规则禁止陪审团采信以不正当手段获取的证据,即使该证据有助于确认被告是无辜的还是真的犯了罪。所以,法庭的理念不是追求真理,而是维护正义。我们制定了规则之后就必须遵守,我们认定被告有罪,并不是指他犯了所指控的罪行,而是指法庭依据这些规则公正地宣布他有罪。无论我们选择哪些规则,都会让某些罪犯逍遥法外,而让一些没有过错的人蒙冤入狱。第一种结果出现得越少,第二种结果出现的可能性就越大。因此,我们在制定这些规则时,应该尽可能地让它们在处理这个重要的平衡问题方面取得最佳效果。
对于内曼与皮尔逊而言,科学研究不是法庭。如果某种药物没有顺利通过显著性检验,我们不会说“我们确信该药物没有疗效”,而会说“检验表明该药物没有疗效”,并拒绝给它发放生产许可证。同样,如果没有合理的证据证明被告到过犯罪现场,即使法庭里所有人都认为他有罪,他也会被当庭释放。
然而,费舍尔完全不同意他们的观点。在他看来,内曼与皮尔逊浑身散发着理论数学的恶臭,苛刻地追求理性主义,却将所有与科研方法有相似之处的东西都弃之如敝屣。大多数法官都不会将明显无罪的被告送上绞刑架,即使规则有这样的要求。而从事科学研究的人,大多对遵守一系列严格规则的做法不感兴趣,也不愿意在零假设实际上是正确的情况下自欺欺人地形成某种理论,他们会把这种卑劣行为带来的满足感拒之门外。1951年,费舍尔在致希克(W E.Hick)的信中写道:
得知你因为以内曼与皮尔逊等为代表的显著性检验而忐忑不安,对此我感到些许遗憾。这些装腔作势的检验毫无价值而言,我和我在世界各地的学生根本不会使用这种检验方法。如果你希望了解具体原因,那么我告诉你,这种检验方法大错特错,它没有从研究人员的视角来解决问题,也没有以有理有据的知识为根基。一直以来,人们都在使用这种方法检验各种猜想以及自相矛盾的研究结果,尽管所检验的猜想与研究结果的数量时多时少,但从未间断。检验的目的是为“我是否应该关注”这个问题提供一个可信度高的答案。这个问题当然也可以(为了使思考过程尽善尽美,也应该)表述成:“该假设是否被推翻了?如果被推翻了,那么根据这些研究结果,其显著性程度有多高?”我之所以确信可以使用这种表述形式,唯一的原因是:真正的研究人员已经知道如何回答,内曼与皮尔逊的拥趸(我想他们必定徒劳无功)试图单凭数学方法来解决的那些问题了。
费舍尔当然也知道顺利通过显著性检验与发现真理并不是一回事儿。1926年,他在著作中提到了一种内涵更丰富、迭代次数更多的检验方法,“科学事实被判定为经受住了实验的检验,必须满足一个前提条件:只要实验设计合理,每次得到的结果几乎都能表现出一定程度的显著性”。(www.xing528.com)
他所说的不是“有一次成功地表现出”,而是“几乎都能表现出”。具有统计学显著性的发现会为我们提供线索,指明研究方向。显著性检验是调查员,而不是审判员。一篇介绍诸如“甲导致乙”或者“丙阻止丁”等重大发现的文章,在结尾部分总会毫无新意地引用某位事先并没有参与该项研究的资深科研人员的评价,内容大多是“该发现极有价值,应该加大研究力度”之类的陈词滥调,在读到这样的文章时,我们知道是怎么回事吗?我们认为这些必不可少的评价其实空洞无物,因此跳过不读,这又是怎么回事呢?
我告诉你们答案吧。科研人员每次都会写下这样的句子,原因是这些句子非常重要,而且是真实的。令人感兴趣、具有明显统计学显著性的发现不是科研过程的终结,它意味着科研活动才刚刚开始。如果某位科研人员有了一个重大、新奇的发现,其他实验室的研究人员应该对这个现象及其变量反复进行检验,以确认该结果到底是昙花一现的侥幸成功,还是真的达到了费舍尔“几乎都能表现出”的标准。如果某个结果经过多次实验都无法得到验证,科学界就会满怀歉意地拒绝承认它。重复实验程序是科学的免疫系统,对大量研究结果进行检验,摒弃达不到标准的研究结果。
这是我们应该追求的理想做法,但是,在实际操作中,科学的免疫作用受到了抑制。当然,有些实验难以重复。如果我们的研究内容是检验4岁儿童延迟满足的能力,以及这项能力与该儿童30年后的生活状况之间的相关性,那么我们无法轻易地通过重复实验验证这项研究结果。
但是,即使可以通过重复实验验证的研究结果,也很少得到重复实验的验证。所有杂志都希望发表重大发现,有哪家愿意发表重复一年前的实验且得出相同结果的论文呢?更糟糕的是,如果做了重复实验却没有得出具有统计学显著性的结果,那么这篇论文会面临什么样的命运呢?为了保证科研体系的正常运行,这些实验结果也应该向公众公开,但它们却被锁进了文件柜。
不过,文化并不是一成不变的。约安尼迪斯、西蒙逊等改革派大声疾呼,告诫人们科学研究正面临着沦落为大规模肠卜术的风险。呼吁的对象不仅限于科学界,还延伸至全体大众,使人们产生了新的危机感。2013年,美国心理科学协会宣布,他们愿意发表一种叫作“重复实验报告”的新类型论文。这类报告的目的是通过重复实验验证被广泛引用的研究结果,在处理程序上与普通论文有很大的不同:在研究开始之前,必须就重复实验的结果提出发表申请。如果重复实验的结果支持原发现,就是个好消息;如果两者不一致,那也没关系,照样可以公开发表,让整个学术界都能完整地了解该项研究结果的重复实验情况。另外一个科研项目——“多实验室计划”(Many Labs project),旨在通过重复实验验证心理学方面的著名成果。2013年11月,该计划的第一批重复实验结果产生了,在接受重复实验验证的13项研究结果中,有10项验证成功,这让心理学家们感到欢欣鼓舞。
当然,在重复实验的最后阶段,必须做出判断和制定标准。费舍尔说的“几乎都能表现出”中的“几乎”到底有什么含义呢?如果我们随随便便就为这个概念赋予一个临界值(比如,“如果某个结果在超过90%的实验中具有统计学显著性,则该结果为真”),我们就有可能再次陷入麻烦。
费舍尔认为,设置一条一成不变的红线的做法是不妥当的,费舍尔不相信理论数学的形式主义。1956年,已经进入垂暮之年的费舍尔指出:“事实上,科研人员不会设置一个固定的显著性程度,然后年复一年,无论情况如何变化,都依据这个红线推翻各个假设。相反,他们会在证据的启示下,结合自己的想法,认真考虑每一个具体案例。”
在后文,我们将讨论如何使“证据的启示”变得更加具体。
【注释】
[1]xkcd漫画是由兰德尔·门罗(Randall Munroe)绘制的网络漫画。作者给它的定位是“关于浪漫、讽刺、数学和语言的网络漫画”。
[2]所有这些例子都选自健康心理学家马修·汉金斯(Matthew Hankins)的博客。汉金斯对于非显著性实验结果颇有研究,他的博客中收集了大量诸如此类的说辞。
[3]所有数字都是我杜撰的。原因之一在于,真实的置信区间计算非常复杂,限于篇幅,我做了这样的处理。
[4]这个说法有过分简单化的嫌疑。费舍尔、内曼与皮尔逊的寿命及创作生涯都比较长,在几十年的时间内,他们的观点与立场不断改变。我在简单描述他们在哲学观上的分歧时,忽略了他们思想中的很多重要组成部分。他们之间最突出的分歧是:相较于皮尔逊,内曼更加坚定地认为统计学的第一要务是决策。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。