有一个基础性问题一直在我们的脑海中挥之不去:在现实生活中发现的各种现象,有的令人惊讶,有的则无须大惊小怪,那么我们应该采取何种判断标准呢?既然本书介绍的是数学,大家肯定认为能找到某种数学方法来解决这个问题。数学的确能帮我们实现这个愿望,但是有时也需要冒很大的风险。因此,我们必须讨论p值的问题。
在此之前,我们需要先讨论“不可能性”(improbability)这个概念。关于不可能性,我们的理解到目前为止还非常含糊,甚至到了令人无法接受的程度。出现这种局面,是有原因的。数学中某些领域(如几何、代数)的知识是通过代代相传的方式传承下来的,这些领域与我们的直觉关系最为密切。我们几乎一出生就会数数,还会根据物体的位置与形状对其进行分类。对这些概念的诠释,与本书开头所讨论的也没有多大区别。
但是,概率这个概念则大不一样。当然,我们对于不确定的事物也有某种直觉,不过,想要明确地表达出我们的这种感受是很困难的。一个原因就是概率论在数学史上出现的时间非常晚,最终成为数学课内容的时间就更晚了。如果我们认真思考概率的含义,往往会晕头转向。“抛硬币时正面朝上的概率是1/2”,这个说法的依据是我们在第4章讨论的大数定律。根据大数定律,抛硬币的次数越多,正面朝上的比例就会越趋近于1/2,仿佛在逐渐变窄的航道中航行时船只能前进一样。这就是所谓的概率论。
但是,有时我们会说“明天的降水概率为20%”,这个说法又是怎么回事呢?明天只会出现一次,无法像抛硬币那样反复实验。经过一番努力,我们也可以把概率论硬套到天气预测上。我们要表达的意思可能是:大量调查发现,如果天气条件与今天类似,那么第二天下雨的天数在总天数中所占比例为20%。但是,如果有人问“人类在下一个千年灭绝的概率是多少”,我们就会目瞪口呆。因为我们知道,这个实验从本质上讲是无法重复的。我们甚至还会运用概率这个概念来讨论与可能性没有任何关系的事件,例如食用橄榄油预防癌症的概率是多少?莎士比亚是莎剧作者的概率是多少?《圣经》与地球是由上帝创造的概率是多少?用评估抛硬币和掷骰子结果的方法来回答这些问题,似乎是没有道理的。不过,在讨论此类问题时,我们会说“似乎不可能”或者“似乎有可能”。因此,我们可能无法抵制诱惑,从而提出“可能性有多大”的问题。
当然,提出问题与回答问题不是一回事儿。我不知道如何通过实验直接评估“楼上的人”真的“在楼上”(或者真的是一个“人”,对于本例来说结果一样)的可能性。因此,我们只能退而求其次,采用第二有效的方法,至少是得到传统统计学认可的第二有效的方法。(我们马上就会发现,这是有争议的。)
我们说过,从《托拉》中找出的字母序列不可能含有中世纪拉比的姓名。这个说法正确吗?很多笃信宗教的犹太人立刻就会予以反驳,指出人类即将了解的所有东西都以这样或那样的方式隐含在《托拉》中。如果这个观点正确,那么拉比的姓名与生卒日期在《托拉》中的出现不但有可能,而且几乎必然如此。
关于北卡罗来纳的同一组彩票号码两次中奖,我们可以给出类似的解释。同一组号码在一周时间内两次中奖似乎是不可能的事,如果我们认可所有数字随机抽取这个假设前提,这种说法就是正确的。但是,我们也有可能认为这套系统有问题,导致4、21、23、34和39等数字出现的可能性更大。我们还有可能认为,负责管理彩票游戏的官员比较腐败,会按照自己的意愿挑选中奖号码。后两个假设条件只需满足一个,出现惊人的巧合就不是不可能的事。这里所说的不可能性是一个相对概念,而不是绝对概念。如果我们说某个结果是不可能的,那么无论我们有没有明确指出,我们的意思都是:根据我们对当今世界做出的某些假设,这个结果是不可能的。
很多科学问题都可以被简化为二选一的简单形式:某件事正在发生,是还是不是?针对某种疾病研发的新药对该疾病确有疗效,还是作用为零?某种心理治疗方法可以提升我们的愉悦感(或者让我们更加兴奋),还是毫无效果?这种“毫无效果”的情况就叫作“零假设”(null hypothesis)。所谓零假设,指的是假设所研究的介入活动不起任何作用。如果我们是研发人员,研发了某种新药,那么零假设会让我们辗转反侧、无法入睡。如果无法将之排除在外,就无法知道我们选择的是可以取得医学突破的正确方向,还是做无用功的错误方向。
那么,如何推翻零假设呢?我们可以借助某个标准框架——“显著性检验”(significance testing),来实现这个目的。20世纪初,现代统计学方法的创始人费舍尔提出了该标准框架的常用形式。[4]
接下来,我向大家介绍显著性检验的作用原理。我们需要做一个实验:找到100个实验对象,从中随机选取50个人,让他们服用我们研发的新药,剩下的50个人则服用安慰剂。我们显然希望服药病人的死亡率低于服用安慰剂的病人。
我们的实验目的似乎非常简单:如果我们观察到服药病人的死亡率低于服用安慰剂的病人,我们就可以宣布新药研发成功,并向美国食品和药品管理局(FDA)递交上市申请。但是,这个观点是错误的。仅仅证明数据与理论相一致还不够,还要证明数据与反面理论不一致,也就是要排除讨厌的零假设。比如,我宣布自己拥有超能力,可以让太阳从地平线上升起。如果你想验证我的这个说法,只要在早晨5点钟时走到户外,就能看到我的超能力!但是,这样的证据根本谈不上是证据,因为根据零假设,即使我没有任何超能力,太阳也会照样升起。
在阐释临床试验的效果时同样需要小心谨慎,我们用数字来说明这个问题。假定零假设成立,这就意味着服用新药的50名病人与服用安慰剂的50名病人的死亡率正好相等(比如说都是10%)。但是,这并不意味着服用新药和服用安慰剂的病人中各有5人死亡。连续多次抛硬币时,正面朝上与反面朝上的硬币刚好一样多的可能性不是特别大。同样,正好有5名服药病人死亡的概率也不大,约为18.5%。而且,在测试过程中,服药病人与服用安慰剂病人的死亡人数刚好相同的可能性也不是很大。通过计算,我发现:
·服药病人与服用安慰剂病人的死亡人数刚好相同的概率为13.3%。
·服用安慰剂病人的死亡人数少于服药病人死亡人数的概率为43.3%。
·服药病人的死亡人数少于服用安慰剂病人死亡人数的概率为43.3%。
如果服药病人的测试结果优于服用安慰剂的病人,并不能说明什么问题,因为即便在新药无疗效这个零假设前提下,出现这样的结果也绝对不是不可能的。
但是,如果服药病人的测试结果好得多,情况就大不相同了。假定在测试过程中,有5名服用安慰剂的病人死亡,而服用新药的病人中无人死亡。如果零假设正确,那么两类病人的存活概率应当都是90%。但是,在这种情况下,服用新药的50名病人全部存活的可能性极小。第一个服药病人的存活概率为90%,前两名病人都存活的概率是90%的90%,即81%。如果我们希望第三名病人也存活下来,这种情况发生的概率就是81%的90%,即72.9%。每多一名病人存活,概率就会降低,到最后,所有50名病人全部存活的概率会非常小,这个概率是:
0.9×0.9×0.9×……×0.9×0.9=0.00515……
在零假设前提下,出现这种理想结果的概率约为1/200。可能性这样小,说服力就要大得多。如果我说自己可以用超能力让太阳升起,结果太阳升起来了,此时,你不会认为我有超能力;但是,如果我说自己可以让太阳不升起来,结果太阳真的没有出现,这就说明我得到了一个在零假设前提下极为不可能的结果。在这种情况下,你可得考虑考虑了。
下面,我们以管理中常用的逐条列举的形式给出推翻零假设的程序:(www.xing528.com)
1.开始实验。
2.假定零假设为真,设p为观察结果中出现极端情况的概率(零假设前提下)。
3.数字p叫作p值。如果p值很小,我们就可以认为实验结果具有统计学显著性;如果p值很大,我们就得承认零假设还没有被推翻。
那么,p值多小的时候我们可以说它很小呢?在显著性与非显著性之间并没有一条泾渭分明的原则性分界线,但是传统观点认为p=0.05是临界点,这个传统观点始于费舍尔本人。
显著性检验体现了我们对不确定性的直觉推理,因此人们普遍接受这个方法。圣经密码至少在乍看上去时令人信服,是什么原因呢?这是因为在《托拉》无法预见未来这个零假设前提下,对于魏茨滕所发现的这类密码而言,其存在的可能性极低,p值(即发现大量等距字母序列,可以准确地对著名拉比进行人口统计分析的可能性)与0非常接近。
多种版本的神创论在时间上远早于费舍尔正式提出的这个检验方法。我们的世界包罗万象、秩序井然,如果我们设定的零假设为“这一切并不是某位首席设计师的杰作”,那么在这个前提下,出现这样一个世界的可能性实在是太小了!
首次尝试用数学语言做出这个论断的人是约翰·阿布斯诺特(John Arbuthnot)。阿布斯诺特是一位物理学家、讽刺作家、亚历山大·蒲柏(Alexander Pope)式的人物,还是一位数学爱好者。他研究1629~1710年的伦敦人口出生记录,发现了显著的规律性:在这81年间,每年出生的男孩都多于女孩。于是,阿布斯诺特提出了一个疑问:在上帝不存在、新生儿性别随机分布这个零假设前提下,出现这种巧合情况的概率是多少呢?假设在任一特定年份,伦敦新生人口中男孩多于女孩的概率为1/2,那么p值(即连续81年出生的男孩多于女孩的概率)为:
1/2×1/2×1/2×……×1/2
81个1/2相乘的得数略小于,也就是说,几乎等于0。阿布斯诺特根据这个发现撰写并发表了一篇论文,论文的题目为“神圣天意的论据——从新生儿性别研究中发现的永恒规律”。
阿布斯诺特提出的这个论据受到了神学研究名流的普遍赞誉,并被他们反复引用。但是,其他数学家却迅速指出他的推理过程存在某些缺陷,其中最主要的问题是他的零假设不合理,即婴儿性别是随机确定的,生男孩与生女孩的概率相同。这两个概率一定是相同的吗?尼古拉斯·伯努利(Nicholas Bernoulli)提出了一个不同的零假设:婴儿性别是由偶然性决定的,是男孩的概率为18/35,是女孩的概率为17/35。与阿布斯诺特的零假设一样,伯努利的零假设也否认了神的存在,但是与统计数据极为吻合。如果我们将一枚硬币抛了82次,结果全为正面朝上,那么我们应该认为“这枚硬币有问题”,而不是“上帝青睐硬币的正面”。[5]
尽管阿布斯诺特的论证没有得到广泛认可,但是其中的精神却得以传承。阿布斯诺特不仅是圣经密码学术研究之父,而且对神学研究者影响极深。时至今日,神学研究者仍然认为数学研究证明上帝必然存在,理由是没有神的世界绝不可能是现在这样。
不过,显著性检验的对象不应仅仅是神学研究给出的各种辩词。从某种意义上讲,查尔斯·达尔文(Charles Darwin)——在神学研究者眼中,他就是一个粗野、邪恶的无神论者——在论证自己的研究成果时,也采用了基本相同的方式。
自然选择理论对上述几大类事实的解释非常完美,几乎可以肯定,错误的理论是不可能拥有如此令人满意的效果的。最近,有人质疑这是一种危险的论证方法,但是人们评判生活中一些常见事件时都会使用这种方法,而且伟大的自然哲学家们也经常采用这种方法。
换句话说,如果自然选择理论是错误的,那么我们面前的生物世界几乎不可能与该理论的预测完全一致。
费舍尔的贡献是把显著性检验变成了一种形式主义的手段,借助这个系统性的方法可以客观地分析实验结果的显著性(或非显著性)。近100年来,显著性检验一直是评估科研结果的标准方法。有一本权威教材把这个方法称作“心理学研究的支柱”,我们在判断实验成功与否时也以此为标准。我们所看到的医学、心理学或经济调查的研究结果,很有可能都经过了显著性检验。
但是,达尔文从“危险的论证方法”这个说法中看出人们心存疑虑,而且这种担忧从未消失。几乎自成为标准方法之日起,就一直有人认为这个方法是一个天大的错误。早在1966年,心理学家戴维·巴肯(David Bakan)就撰文讨论过这个“心理学危机”,巴肯认为这是“统计学理论的危机”。
显著性检验并不能告诉我们该显著性引发的心理现象具有何种特征……它的应用已经造成了大量问题……就像那个孩子大声说出皇帝其实什么也没穿一样,我们也需要“大声疾呼”,揭穿它的真相。
近50年过去了,尽管越来越多的孩子四处奔走,传播皇帝赤身裸体的消息,但是这位皇帝仍然一丝不挂地待在他的办公室里,继续寻欢作乐。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。