首页 理论教育 统计推断与假设检验概述

统计推断与假设检验概述

时间:2023-05-25 理论教育 版权反馈
【摘要】:就这样,为了一次苏联之旅,我走上了学习统计学这条路。但琳达的保险公司不能因为她受伤的概率在统计学上几乎为零,就拒绝替她支付医疗费。如果换成统计推断的专业术语,研究人员可能会得出如下结论:假如试验药物没有疗效,则治疗组和对照组之间几乎没有可能会出现如此巨大的差距。统计推断是一个让数据说话、让有价值的结论浮出水面的过程。统计推断绝不仅限于这一简化的假设,但如果从一开

统计推断与假设检验概述

Naked Statistics

垃圾邮件过滤、癌症筛查、恐怖分子追捕,我们最不能容忍哪件事情出错,又有哪件事情是可以“睁一只眼闭一只眼”的?

我在大四的第二学期选修了统计学课程。那时我对统计学或其他以数学为基础的学科并没有太大的兴趣,但我已经答应了我的父亲选这门课,回报就是可以跟他去苏联旅游10天。就这样,为了一次苏联之旅(当然还有10天的额外假期),我走上了学习统计学这条路。这是一项相当不错的交易,一方面上课之后我发现我对统计学的热爱远远超出了我的想象,另一方面我得以在1988年的春天游览了苏联。

我的这段往事实际上与本章的内容密切相关。需要指出的是,那个学期的统计学课程我学得并不专心。因为除了各种各样的杂事要处理,我还有一篇论文要赶在学期结束前完成。每周的统计课都要进行小测试,我每次要么不去参加测试、要么考试成绩不及格。期中考试前我突击复习了一下,这门课程才得以勉强过关。但就在离学期结束还有几周的时候,发生了两件事情:第一件事,我终于把论文写完了,这样我就有了大量的空余时间;第二件事,我意识到其实统计学也没有我想象中那么难,因此我拾起了统计学课本,将之前没有做完的习题逐个补上。期末考试的时候,我的成绩是A。

在这个时候,我的统计学老师(至于他叫什么名字,我早就忘得一干二净了)把我叫到了他的办公室。他具体说了什么,我已经记不太清了,只是隐约记得他说过“你的期末考试成绩比起你的期中考试成绩有了很大的提高”之类的话,但丝毫听不出有任何夸奖的意味,从始至终我心里都感觉不太舒服,觉得老师话中有话,因为他一直在问我到底是怎么做到的,言外之意就是他怀疑我作弊了。现在做了多年老师的我,也终于能体会他那时的想法了,在我教过的所有课程里,几乎所有学生的期中成绩和期末成绩都有着极为显著的相关性。如果某一个学生的期中考试成绩在班上处于中等偏下的水平,而在期末考试中却一举成为班上的佼佼者,这是一件非常不寻常的事。

我当时的解释是,我提早完成了论文,而且开始重视这门课程(认真阅读了课本,并完成了老师布置的课后作业),他看上去似乎对我的回答感到较为满意。我随后离开了他的办公室,但还是被他的含蓄“指控”搅得心神不宁。

说出来你们可能不信,通过这么一个小插曲,我们就可以窥见统计推断的优劣。统计学无法确凿地证明任何东西。与之相反,统计推断的力量在于:先发现一些规律和结果,然后再利用概率来证明这些结果的背后最有可能的原因。假设有一个举止怪异的赌徒来到小镇,跟你打了一个赌:如果他用一个骰子掷出6点,那么他可以赢1 000美元;但如果他掷出的是其他点数,那么你可以赢500美元。这看上去对你十分有利,但结果是,他连续10次掷骰子的点数都是6点,从你这里赢走了10 000美元。

一种可能的解释是:他的运气实在是太好了。还有一种解释是:他运用了某种不为人知的作弊手段。如果是一个正常的骰子,连续掷出10次6点的概率约为六千万分之一。虽然你无法证明他作弊了,但你至少应该检查一下他所用的骰子。

当然,有时候最有可能的解释并非正确的解释,极端罕见的事情总会发生。南加利福尼亚州的一位名叫琳达·库珀的女士被闪电击中了4次。据美国联邦应急管理局披露的统计数字,被闪电击中一次的概率只有60万分之一。但琳达的保险公司不能因为她受伤的概率在统计学上几乎为零,就拒绝替她支付医疗费。再回到我的统计学课程上来,那位教授的怀疑并非没有道理,他心里清楚,这种情况发生的概率非常低。正是这种思维方式,使得调查人员能够在统考中发现作弊现象,也让美国证券交易委员会嗅到内部交易的蛛丝马迹,并最终将不法的交易人员捉拿归案。但如果一个不太可能发生的事件发生了,在没有其他证据的情况下,我们只能说虽然发生概率很低,但这件不太可能发生的事还是发生了。在本章的后半部分,我们会看到概率也有将人引入歧途的时候。

至少到目前为止,我们应该对统计推断的功能有一个较为积极的认识,通过对数据的使用,统计推断能够帮助我们解决许多重要的问题。某种新研发的药物在治疗心脏病方面是否有效?手机真的会诱发脑癌吗?必须要注意的是,我并没有声称统计学能够毫不含糊地回答这类问题,而是通过推断,我们可以知道哪些方面是可能的,哪些方面是不太可能的。研究人员无法证明某种新药在治疗心脏病方面确实是有效的,即使他们已经进行了小心谨慎的临床对照试验。毕竟,在治疗组和对照组中,完全有可能出现与药物毫无关系的反应异常的病人。假如治疗组的100位病人中有53位在服用新药之后取到了明显效果,而服用安慰剂的100位对照组病人中只有49位的病情好转,我们就无法立刻得出结论,认为这种新药有效,因为这样的一个结果完全有可能是两个小组自然的概率分配或其他因素所导致的,跟新药没有关系。

但如果治疗组的100位病人中有91位在服用新药之后取到了明显效果,而服用安慰剂的100位对照组病人中还是只有49位的病情好转,那我们是否就能得出结论呢?治疗组出现的良好效果有可能还是跟新药没有关系,我们也不能排除治疗组的病人们运气实在太好或生命力特别旺盛,但此刻,此类解释正确的可能性要比之前小得多。如果换成统计推断的专业术语,研究人员可能会得出如下结论:(1)假如试验药物没有疗效,则治疗组和对照组之间几乎没有可能会出现如此巨大的差距。(2)因此,试验药物没有积极疗效的可能性很小。(3)那么结论(2)的反面,也就是试验药物具有积极疗效的可能性较大,并且恰巧能解释对照试验的数据结果。

统计推断是一个让数据说话、让有价值的结论浮出水面的过程。这就是回报!统计学的意义并不是进行无数次高深的数学计算,而是在于更好地洞察社会现象背后的成因。统计推断正是我们之前已经讨论过的两个概念的合体:数据和概率(期间需要来自中心极限定理的一点儿帮助)。在本章的内容中,出于简化计算的目的,我走了一条方法论的“近道”,那就是假设本章出现的所有例子都是数量足够大、正确抽取的样本。这一假设使得中心极限定理能够成立,保证任何一个样本的平均值和标准差与其所在群体的整体平均值和标准差基本相等。

统计推断绝不仅限于这一简化的假设,但如果从一开始就处理那些规模小或数据不完整的复杂样本,就需要引入过多琐碎的方法论概念和统计工具,这样会分散我们的注意力,反而失去对整体的把握。本章的目标就是单纯地介绍统计推断的巨大作用,并让读者直观地理解其工作原理。一旦大家掌握了这一点,那么在处理更加复杂的问题时也能轻松对待了。

统计推断过程中最常使用的工具之一就是“假设检验”。事实上,我已经在之前介绍了假设检验的概念,只不过当时还没有将其贴上这一高级的术语标签。如前文所述,就凭数据本身并不能证明任何结论,我们只有通过推理和概率来对可能的解释予以支持或否定。更为精确地说,任何统计推断都是由或含蓄或直接的零假设开始的。先假设一个结论,然后通过统计分析对其进行支持或反驳。如果我们证明零假设不成立,那么相当于承认了其反面结论与真实情况更为接近。举个例子,法庭在审理案件的过程中,首先会假设被告方无罪,而指控方的工作就是说服法官陪审团来推翻一开始的无罪假设,并接受其反面事实,即被告有罪。从逻辑学来看,如果我们能够证明某个零假设不成立,那么其对立假设(又称备择假设)肯定为真。下面举一个例子。

零假设:某种新药在预防疟疾方面并没有比安慰剂更加有效。

对立假设:该新药能够帮助预防疟疾。

数据:随机选取一个小组服用新药,另一个小组作为对照组服用安慰剂。一段时间过后,服用新药的小组的疟疾发病率要远低于对照组。如果该新药不具备任何疗效,那么出现这一结果的概率是非常低的。因此,我们推翻该新药没有疗效的零假设,承认其对立假设成立,即该新药能够帮助预防疟疾。

可能这种思维逻辑并不是那么容易理解,没关系,我们再举一个例子。我还是要啰唆一句,零假设和对立假设在逻辑方面是互补的,也就是说,如果其中一个假设为真,则另一个假设为假;如果我们推翻了其中一个假设,那就必须承认另一个假设。

零假设:为犯人提供戒毒治疗并不能降低他们再次被捕入狱的概率。

对立假设:犯人在坐牢期间接受戒毒治疗,有助于降低他们出狱后再次被捕入狱的概率。

数据:犯人被随机分成两组,治疗组接受戒毒治疗,对照组没有接受治疗。(事实上,很多犯人在服刑期间真的接受了戒除毒瘾的医疗帮助。)5年后,两个小组的犯人再次被捕入狱的比例相近。在这个例子中,我们无法推翻零假设。根据这个数据,我们没有理由推翻一开始“戒毒疗法不能有效地阻止犯人再次入狱”的假设。

研究人员经常会提出一个零假设并希望有朝一日能够推翻它,虽然这听上去有违直觉。在上面的两个例子中,研究的“成功”(寻找到一种新的治疗疟疾的药物以及减少重新犯罪率)都意味着推翻零假设,而真正通过数据做到的只有第一个例子。

在法庭上,推翻无罪假设的最基本条件是通过定性分析,“在不存在任何疑义的前提下认定被告有罪”,至于法官或陪审团如何理解这句话,那就因人而异了。基本上统计学也是这个道理,但在“排除疑义并定罪”的过程中用到了定量分析。研究人员最常提出的疑问是,如果零假设成立,那么完全是出于巧合的概率有多大?以此类推,医学研究人员会问,如果这一试验药物对治疗心脏病无效(也就是零假设),那么治疗组有91%的病人病情好转且对照组仅有49%的病人病情好转的概率有多大?假如数据显示零假设基本上不可能成立,比如上述的医学例子,那么我们必须推翻它,并承认其备择假设(该药物对治疗心脏病有作用)成立。

那么,让我们再回过头来看看本书之前提到过多次的亚特兰大统考作弊丑闻。在这次统考中,由于答题纸上出现了大量“由错变对”的更正痕迹,导致这次考试的分数出奇的高。当然,不可否认的是,学生们在考试中肯定会对答案进行修改,而且总有一些特别幸运的学生将错误的答案改成正确的,这并不是作弊。因此,我们的零假设为:每一个学区的统考分数都是有效的,而且答题纸上的每一处“由错改对”都是巧合。我们最不愿看到的就是有的学生或学校因为有绝大多数的学生恰好在一场重要统考的最后几分钟内进行了错题修改而无辜受罚。

但“绝大多数”仅仅是亚特兰大统考作弊丑闻的“冰山一角”。一些考场的学生的答题纸上“由错改对”的痕迹数量高于全州正常水平的20~50个标准差(请记住,在一个分布中绝大部分数据都会落在平均值的两个标准差范围以内)。因此想想看,有那么多学生在那么短的时间内仅凭“运气”改正了那么多的错题,这个概率能有多大?负责调查此事的官员称,亚特兰大统考没有作弊的概率与同时有7万名身高在7英尺(约2.13米)以上的观众出现在佐治亚穹顶体育场观看足球比赛的概率差不多。这种情况会发生吗?当然会。发生的概率大吗?恐怕不大。

佐治亚州政府至今仍未对这起丑闻中的任何人定罪,就像我的老师无法(也不应该)因为我的期末考试成绩与期中考试成绩反差太大而将我开除一样。亚特兰大的教育部门无法证明作弊确实发生了。但是,这些官员可以推翻“考试结果是正当有效”的零假设,而且还可以“自信满满”地宣称这一发现,这是因为亚特兰大的情况相比起正常值来说几乎是不可能发生的。因此,他们也明确承认备择假设成立,即考试过程中存在问题(虽然我怀疑他们用的是更官方、更正式的说法,不过基本上就是这个意思)。更为深入的调查最终还是发现了所谓的“影子修改人”,根据相关报告的描述,存在着一部分老师修改学生答案,将答案印在纸上发给学生,让低分学生抄袭高分学生的答题纸,甚至直接在考场内用手将正确答案指给学生的情况。最令人发指的作弊行为是,竟然有一群老师在周末举行了一个比萨派对,在狂欢的时候顺便将所有学生的答题纸都“纠正”了一遍。

在亚特兰大统考的例子里,我们可以推翻“不存在作弊”的零假设,因为这样的考试结果在不作弊的前提下基本上不可能发生。但是,零假设到底要有多“不合情理”才能让我们将其推翻,并承认其反面假设为真?

研究人员推翻零假设最常参考的“门槛”之一是5%,经常以十进位小数的形式表示为0.05。如果一个零假设想要为真,其支撑数据的结果必须至少达到0.05这个显著性水平,才能保证该假设具有意义。这一点其实并不复杂,请接着往下看。

假如我们把“显著性水平”定在0.05,也就意味着如果某个零假设成立的概率还不足5%的话,我们就可以将其推翻。举个例子来看会更加直观,虽然我很不愿意再次拿出失踪客车的例子,但这次就请大家再忍耐一下吧。假设你因为上一章的出色表现,被正式任命为失踪客车“寻找大使”,同时你还是“变化的一生”项目组的全职研究人员,因此便可以趁工作之便收集一些有用的数据来支持你的客车寻找事业。研究组使用的每一辆客车上都载有约60名乘客,因此我们可以将每辆客车上的乘客看作从整个“变化的一生”数据库中随机抽取的样本。某天清晨,你被急促的电话声吵醒,接起电话后你得知在波士顿地区有一辆客车被一个宣扬肥胖主义的恐怖组织劫持。你的任务是乘坐一架直升机空降在这辆客车上,从客车车顶的紧急逃生出口偷偷潜入客车内部,仅凭客车上乘客的体重判断他们是不是“变化的一生”项目组的研究对象(平心而论,比起那些剧情虚假的动作冒险片来说,这个例子其实也没差到哪里去,而且还具有教育意义)。

此刻在直升机上的你,手持一挺机关枪,腰插多枚手榴弹,手腕上还戴着一款能够进行高清摄像的手表,脑子里记下了上一章我们通过计算得出的“变化的一生”项目的全体研究对象的平均体重和样本的标准误差。对于任何一个随机抽取的样本而言,其预期平均体重为162磅,标准差为36磅,这也是全体研究对象的平均体重和标准差。在这两个数据的基础上,我们能够计算出样本平均值的标准误差: = 36/7.75 = 4.6。在行动指挥中心,下面的这张分布图通过扫描植入你的右眼视网膜,这样你在成功潜入行进中的客车并偷偷观察乘客体重时就能随 时进行参考了。

图10–1 样本平均值分布

参照上图,我们可以预测,在样本容量为60人的全部随机抽样中,将有约95%的样本的平均体重为153~171磅,与之对应的是,只有约5%的样本的平均值大于171磅或小于153磅。(我们现在正在进行的操作被称为“双尾”假设检验,“双尾”假设检验和“单尾”假设检验的区别在哪里?感兴趣的读者请参阅本章后面的补充内容。)你的上司认定0.05为这次反恐行动的显著性水平,如果在那辆被劫持客车上的60名乘客的平均体重超过了171磅或不足153磅,那么你将推翻“该客车搭载的是‘变化的一生’研究对象”的零假设,承认其备择假设即“客车上的60名乘客与‘变化的一生’研究项目无关”成立,并等待进一步的指令。

你成功地降落并潜入客车内部,偷偷地对车上的乘客进行了“称重”,这60名乘客的平均体重只有136磅,低于平均值两个标准误差。(还有一个重要的线索是,所有乘客均为孩子,他们身上穿着印有“格兰岱尔市曲棍球营”的T恤。)

根据你的任务指示,在显著性水平为0.05的前提下,你可以推翻“该客车搭载的是‘变化的一生’研究对象”的零假设。这就意味着(1)如果零假设成立,即该客车上搭载的是“变化的一生”项目的研究对象,那么他们的平均体重所在区间的概率只占到了5%;(2)你可以以零假设成立的概率只有5%为由,推翻零假设;(3)平均来说,在推翻零假设的问题上,你有95%的概率是正确的,只有5%的概率是错误的,后者的情况就是,你觉得这一车人并不是“变化的一生”项目的研究对象,但实际上他们正好是,尽管这一车人的平均体重与整体平均值相比差别较大。

任务并没有结束。行动指挥中心的负责人(电影版里由安吉丽娜·朱莉扮演)要求你计算出所得结果的假定值,假定值就是在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。车上乘客的平均体重为136磅,低于“变化的一生”项目的所有研究对象的平均体重5.7个标准误差,如果他们真的是该项目的研究对象,那么得到如此极端结果的概率要小于0.000 1(在正式研究报告中可表示为p<0.000 1)。任务完成以后,你从这辆行驶的客车上安全跃到正在相邻车道中行驶的敞篷跑车副驾驶座上。

这个故事同样有个大团圆的结局。当那群“以胖为美”的恐怖分子得知你所在城市正在举办国际香肠节之后,他们一致同意摒弃暴力,通过在全世界范围内推广国际香肠节等手段,以和平的方式促进肥胖主义。

如果觉得0.05的显著性水平过于任意和武断,那也没办法,因为这个指标是既定的。在推翻零假设这个问题上,并不存在一个标准单一的统计学“门槛”。对于上述分析来说,将显著性水平设为0.01或0.1都是合理和常见的。

可以想见的是,当显著性水平为0.01(即只有小于1%的概率能够推翻零假设)时,其推翻零假设的难度明显大于显著性水平为0.1的情况(有小于10%的概率能够推翻零假设),因此前者在统计学上的分量自然也会更重。本章后面的段落会讨论不同显著性水平的优势和劣势。当前最需要了解的一点是,当我们能够在某个合理的显著性水平上推翻一个零假设时,其结果可以被认为是具有“统计学意义”的。

下面来举一个现实生活中的例子。当你在报纸上读到每天吃20个麸皮饼的人患结肠癌的概率要低于那些不爱吃麸皮饼的人时,其背后所进行的学术研究很有可能是:(1)在一个大型数据组中,研究人员发现每天吃至少20个麸皮饼的人患结肠癌的概率要低于那些说自己不爱吃麸皮饼的人;(2)研究人员的零假设是,吃麸皮饼对结肠癌的发病率没有影响;(3)吃麸皮饼和不吃麸皮饼的人之间患结肠癌概率的巨大差别如果仅仅用巧合来解释,似乎并不那么让人信服。具体来说,如果吃麸皮饼与结肠癌之间没有任何联系,那么这两类人在患结肠癌这件事上仅仅是因为巧合就出现如此巨大差别的概率要低于某个“门槛”,如0.05(该显著性水平应该在数据分析开始前确定,这样就可以避免为了得出一个具有统计学意义的研究结果而“量身定制”一个“门槛”;(4)这篇学术论文里可能还会有一个结论,差不多是这样说的:“在每天至少吃20个麸皮饼与结肠癌发病率降低之间,我们发现了一个具有统计学意义的联系,其显著性水平为0.05。”

后来的某一天,当我早餐吃着培根和鸡蛋时,在《芝加哥太阳报》上读到另一篇类似的研究报道,其标题更加直接和有趣:“每天吃20个麸皮饼,结肠癌就不会来找你”。但是,那份报纸的标题虽然比学术论文更具有可读性和吸引力,但同时也可能在传递一个错误的信息。该研究事实上并没有宣称吃麸皮饼可以降低个人患结肠癌的风险,它仅仅是揭示了某个大型数据组中吃麸皮饼与患结肠癌之间的负相关关系。这一统计学关系并不足以证明吃麸皮饼能够带来健康状况的改善。毕竟,那些吃麸皮饼的人(尤其是每天吃20个以上麸皮饼的人!)有可能还有其他降低癌症发病率的生活习惯,如少吃红色肉类、定期锻炼、常做身体检查等(这就是前面章节里介绍的“健康用户偏见”)。到底是麸皮饼的功劳,还是因为这群爱吃麸皮饼的人恰好具备的其他行为或个人素质?分清楚“相关关系”和“因果关系”将有助于我们更好地理解统计结论。有关“相关关系并不等同于因果关系”的内容,本书将在后面的章节里详细阐述。

而两个变量之间如果不存在 “统计学意义的相关性”,则意味着两者之间的任何关系都可以用“巧合”二字进行合理解释。《纽约时报》近期刊登了某些科技公司涉嫌发布虚假广告的新闻,文章称,这些公司宣称它们的软件有助于提高学生的考试成绩,而数据却给出了相反的结果。卡内基梅隆大学销售的一款名为“认知教学”的软件程序,其广告宣传语是“革命性的数学课程,革命性的成绩提高”,但美国教育部在一份测试报告中却称该软件对高中生的考试成绩“没有效果”。对此,《纽约时报》建议卡内基梅隆大学应该将广告词改为“未突破的数学课程,未证实的成绩提高”。事实上,一项针对10个教学软件的研究发现,在这些声称能够提高学生数学、阅读等能力的软件产品中,有9个与提高考试分数之间不存在统计学意义上的相关性,也就是说,美国联邦研究员无法排除那些使用过和未使用这些产品的学生之间的成绩差别,仅仅是出于巧合的可能性。

知识介绍暂且停一下,让我先提醒一下大家刚刚这部分内容的重要性。2011年5月《华尔街日报》刊登标题文章,题为“自闭症和脑量”,由于自闭症谱群疾病的病因至今尚未明确,因此该发现被认为是一项重大的研究突破。这篇文章的第一句话总结了发表在美国《普通精神医学纪要》中的相关学术论文:“本周一刊登的一项新研究发现,自闭症儿童的脑量要比其他儿童大,而且这一趋势在孩子未满两周岁时就出现了。”北卡罗来纳州州立大学的研究人员对59位患有自闭症的儿童和38位健康儿童进行了大脑成像,发现自闭症儿童的脑量要比同龄的健康孩子大10%。

一个相关的医学问题是:患有自闭症谱群疾病的孩子的大脑在生理结构上与其他孩子有什么不同吗?如果回答是肯定的,那么将有助于研究人员更好地理解自闭症的发病原理,从而为自闭症的治疗和预防提供新的信息。

一个相关的统计学问题是:仅凭一项样本规模并不是太大的研究(只有59位自闭症儿童,健康儿童的数量更少,仅为38位),我们就能推而广之地认为所有患有自闭症谱群疾病的儿童的脑量都异于常人吗?回答是肯定的。研究人员总结道,在儿童的脑量与患自闭症无关的前提下,两组样本(59位自闭症儿童和38位健康儿童)的脑量出现如此差异的概率只有千分之二(p =0.002)。

我还特地找到了那期《普通精神医学纪要》,翻看了论文原文。里面的研究人员所采用的方法并没有比截至目前我们所学的概念更复杂,接下来,我将为大家大致介绍一下这篇在社会影响力方面和统计学意义上都非常重要的论文。首先你应该认识到,研究中的两组孩子—59位自闭症患儿和38位健康孩子—能够合理地代表他们所在的群体,而且样本数量足够了,因此适用于中心极限定理。如果你早已将上一章的内容忘得差不多了,没关系,我们先来简单复习一下:(1)任意一个群体的样本平均值将会在群体平均值周围呈正态分布;(2)样本的平均值和标准差约等于所在群体的整体平均值和标准差;(3)约有68%的样本平均值位于群体平均值一个标准误差以内,约有95%的样本平均值位于群体平均值两个标准误差以内,以此类推。

如果用通俗的语言来总结上述3点内容,就是任何一个样本与其所代表的群体之间应该具有相似性;虽然每个样本都是不同的,但任何一个正确抽取的样本的平均值与整体平均值相差甚大的概率相对来说都是非常小的。同样的,我们可以预测,取自相同群体的两个样本彼此之间也应该差不多。在此基础上我们换个角度思考,如果两个样本的平均值相差甚远,那么最有可能的解释就是它们来自于不同的群体。

这里有一个凭直觉就能做出判断的例子。你的零假设为:男性职业篮球运动员的平均身高与其他普通男性一样。你随机抽取了50位职业篮球运动员和50位非职业篮球运动员,假设你选择的篮球运动员们的平均身高为6英尺7英寸(约2.01米),非篮球运动员的平均身高为5英尺10英寸(约1.78米),两者之间存在9英寸的差距(约0.23米)。假如篮球运动员与非篮球运动员之间没有身高差距,那么这两个样本的平均值之间出现如此巨大差距的概率有多大呢?通俗的说法就是:非常低。

那份关于自闭症的研究论文所用的基本方法论是一样的。研究人员将两组孩子的几次大脑检测结果进行了比较(孩子在2~5岁通过核磁共振成像分别对大脑进行一次检测)。我们现在只看其中的一项指标—总脑量。研究人员的零假设大致上是:无论孩子有没有自闭症,他们的大脑在解剖学上都没有什么差别。备择假设为:患有自闭症谱群疾病的儿童,他们的大脑与健康儿童的大脑有根本性的不同。像这样的一个研究发现自然会存在许多问题,但至少为未来的自闭症研究和探索提供了一个方向。

在该研究中,自闭症儿童的平均脑量为1 310.4立方厘米,对照组儿童的平均脑量为1 238.8立方厘米,所以两组儿童的平均脑量之差为71.6立方厘米。假如自闭症跟儿童的平均脑量并无任何关系,那么出现这一结果的概率有多大?

如果你还记得上一章的内容,就会很自然地想到我们可以先求出样本的标准误差:其中s为样本的标准差,n为样本数量。研究为我们提供了这些数据:自闭症组中59位儿童脑量的标准误差为13立方厘米;对照组中38位健康儿童脑量的标准误差为18立方厘米。你应该还记得中心极限定理告诉我们,有95%的样本平均值会落在整体平均值左右两个标准误差的范围内。

因此,我们可以从手中的样本推断出,所有自闭症儿童的平均脑量在1 310.4± 26立方厘米范围内的概率为95%,在统计学上我们称之为置信区间。我们可以有95%的把握声称,在1 284.4~1 336.4立方厘米的置信区间里包含了广义上所有患自闭症谱群疾病的儿童的平均脑量。

用同样的方法,我们也能够有95%的把握声称,在1238.8±36立方厘米的范围内,也就是1 202.8~1 274.8立方厘米的置信区间里,包含了所有非自闭症儿童的平均脑量。(www.xing528.com)

我承认,上面出现了很多数字,或许烦躁的你刚刚已经将这本书扔到了角落里。假如你没有做出这么冲动的事情,或者你又走过去把书捡了起来,那么你就应该会发现,这两个置信区间居然没有重合的地方。自闭症儿童的平均脑量所处的置信区间的最小值(1 284.4立方厘米),依然要高于非自闭症儿童平均脑量所处的置信区间的最大值(1 274.8立方厘米),请看下面的图解。

图10–2 平均脑量样本分布图

这可能是证明自闭症儿童的大脑,的确存在解剖学差异的第一条线索。是的,照目前来看,这只能算是一条线索,因为我们所有的推断都是建立在不到100位儿童组成的样本的基础上,或许我们只是遇上了比较特殊的样本。

现在只要那“临门一脚”的最后一个步骤,就能赋予所有推断以生命,我们也将迎来收获的那一刻。如果把统计学比作花样滑冰,那么现在要进行的就是最后一组动作,在此之后,兴奋的观众们便可将一束束鲜花抛入滑冰场。假设自闭症儿童和健康儿童的脑量真的不存在任何解剖学上的差别,即他们属于同一个群体,那么两组样本出现如此巨大差距(一个是1 310.4立方厘米,一个是1 238.8立方厘米)的准确概率有多少?我们可以算出已知平均值差异的假定值。

考虑到你可能会再次将书扔到角落里,我这次将计算公式放到了本章的补充知识点里。道理其实很简单,如果我们从同一个群体里随机抽取两个大型样本,那么我们可以推断出它们的平均值应该是非常接近的。举个例子,如果我选取了100 位NBA球员并计算出他们的平均身高为6英尺7英寸(约2.01米),那么另外再随机抽取100位NBA球员,他们的平均身高也应该接近6英尺7英寸。好吧,或许这两组样本之间会存在一两英寸的差别,但存在4英寸差别的概率就没有那么大了,相差6~8英寸的概率可以说是微乎其微。我们可以计算出两个样本平均值之间差异的标准误差,通过这个标准误差,以及不同样本平均值之间的差距,我们可以判断样本平均值的离散程度。重要的是,我们可以通过这一标准误差计算出两个样本来自同一个群体的概率。以下就是具体流程:

1.假如两个样本均抽取自同一个群体,那么最好的结果是它们的平均值之差为零。

2.中心极限定理告诉我们,在重复抽取的样本群里,两个平均值(样本平均值与群体平均值)之间的差将会呈正态分布。(承认吧,你是不是开始有点爱上中心极限定理了?)

3.假如两个样本真的来自于同一个群体,那么有68%的概率,两个平均值之间的差小于一个标准误差;有约95%的概率,这个差会处于两个标准误差以内;有99.7%的概率会处于3个标准误差以内。这就是那篇自闭症研究论文的结论落脚点。

如前文所述,自闭症儿童组和对照组的平均脑量之差为71.6立方厘米,标准误差为22.7,也就是说,两组样本的平均值之差超过3个标准误差,我们能够据此计算出,如果这两个样本真的来自于同一个群体,那么出现如此极端结果的概率只有千分之二。

在美国《普通精神医学纪要》里刊登的那篇论文提到,该案例的假定值为0.002,也就是我刚刚提到的千分之二。现在,你知道这个数字是从哪里来的了!

在统计推断的巨大光环之下,我们也要小心它的陷阱。这些陷阱在本章开头的那个例子中就已经埋下了:我的那位起了疑心的统计学老师。统计推断的强大力量来源于概率,而非宇宙深处某种未知而又神秘的绝对性。我们不能因为某人连续两把牌都摸到了“同花顺”就将其关进大牢,因为这种事情确实会发生—在没有作弊的情况下。因此,对于任何一类假设检验来说,我们都面临一个根本性的两难困境。

这一统计学现实在2011年的时候到达了一个最紧要的关头,当时的《人格与社会心理学杂志》准备刊登一篇表面上看与其他论文没有任何区别的学术论文:一位康奈尔大学的教授明确提出了一个零假设,开展了一项实验来验证这一零假设,然后结合实验结果在显著性水平为0.05的基础上将其推翻。论文的结论在学术界和诸如《纽约时报》这样的主流媒体上,都引起了轩然大波。

通常来说,在《人格与社会心理学杂志》等类似刊物上发表的文章基本上不会登上报纸头条,那么到底是什么让那篇文章如此受到关注?论文作者是在测试人类的超感知觉(ESP),俗称“第六感”。零假设当然是“第六感”不存在,备择假设是人类具有超感知觉。为了解开这一谜题,论文作者招募了很多人来参与这个实验。在两块电脑屏幕上分别遮盖着一块不透明的布,电脑软件会随机在一块布的后面显示一张“艳照”,参与者们要在两块布中选择一块掀开,并记录下结果。从概率的角度来说,掀开一块布后面显示“艳照”的概率恰好为50%,但在反复实验以后,研究表明显示艳照的概率为53%。在大量样本数据的支持下,那位教授推翻了“人类不存在超感知觉”的零假设,承认备择假设成立,即超感知觉能够让个人预知未来。这篇论文一经发表,就招致了大量批评,这些批评认为仅凭一项具有统计学意义的研究不足以排除巧合的可能性,尤其是在没有其他证据来支持甚至解释这一结论的情况下。《纽约时报》总结道:“一个藐视几乎所有科学常识的结论就其本质来说应该是超乎寻常的,因此就更需要超乎寻常的证据来证明它。如果忽视了这一点,正如那些充满争议的科学分析故意做的那样,会使得许多研究成果的重要性被夸大。”

为了应对这一问题,一种方法是抬高统计学意义的“门槛”,例如将显著性标准设定为0.001。但这也存在缺陷,因为选择一个合理的统计学意义“门槛”本身就包含了权衡和妥协。

如果我们用于推翻零假设的举证责任定得过于宽松(例如0.1),那么我们就会经常处于推翻零假设的状态,而实际上,在很多时候零假设是正确的(就像我对“第六感”实验的怀疑)。这就是统计分析中肯定或否定假设前提的Ⅰ型错误。想象一下美国的司法制度,对于陪审团来说,法庭上的零假设是被告无罪,推翻这一零假设的门槛是“排除一切可疑之处,确信被告有罪”,假如我们将这一门槛降低为“强烈的直觉告诉我被告有罪”,那么导致的结果肯定是更多的罪犯锒铛入狱,当然也会有更多无辜的人蒙冤入狱。这相当于统计学中将显著性水平降到一个相对低的水平,如0.1。

严格来说,1/10的概率并非毫无可能。如果放在某种癌症新药的临床试验上,每10次的药物使用,或许就会有那么一次没有起到药效(又或者在法庭上,每被定罪的10个被告里,就有一个人是无辜的)。Ⅰ型错误表示错误地推翻了一个零假设,可能直接看这些统计学术语不是那么直观,所以我们也称之为“假阳性”,下面就来解释一个为什么叫作“假阳性”。当你去医院进行某项疾病的检查时,医院的零假设是你并没有患上该疾病,如果实验室的检测结果推翻了零假设,那么就会在体检报告里注明“阳性”,但假如你的检验结果为“阳性”,事实上你并没有患上该疾病,那么检验结果就是“假阳性”。

在任何情况下,对推翻零假设的举证责任的要求越宽松,推翻零假设的可能性就越大。但我们显然不愿意看到无效的癌症治疗药物进入市场,也不希望将无辜的人送入监狱。

但这又出现了一个矛盾。推翻零假设的门槛越高,我们推翻零假设的可能性就越小,以至于很多应该被推翻的零假设“逃过一劫”。如果我们要求必须凑齐5位目击证人才能将被告定罪,那么将会有很多罪大恶极的罪犯逍遥法外(当然,蒙冤入狱的人也会相应减少)。如果我们对所有新药的临床试验都要求0.001的显著性水平,那么将会极大地减少无效药物进入市场的可能性(因为错误推翻“药物没有比安慰剂更有疗效”的零假设的概率只有千分之一),但我们同时也面临着将有效药物拒之门外的风险,因为我们的准入门槛太高了,这就是统计学上的Ⅱ型错误,又称为“假阴性”。

哪种错误更加严重?这要依情况而定。最重要的是,你能够意识到宽松和严格之间的权衡和妥协,因为统计学里没有“免费的午餐”。下面的几种情形虽然与统计学没有直接关系,但也都包含了I型错误和Ⅱ型错误之间的妥协。

1.垃圾邮件过滤。零假设为任何一封电子邮件都不是垃圾邮件。你的垃圾邮件过滤插件会寻找可用来推翻零假设的线索,如一份内容较多的、包含“增高”、“促销”等广告关键词的清单。Ⅰ型错误表示一些不是垃圾邮件的电子邮件也被屏蔽掉了(“假阳性”),Ⅱ型错误表示让垃圾邮件通过筛选进入到了你的收件箱里(“假阴性”)。考虑到漏收一封重要邮件的损失要大大超过收到一封推销天然维生素的广告邮件,绝大多数人可能会更倾向于站在Ⅱ型错误这一边。一个经过优化设计的垃圾邮件过滤插件在推翻“来信为垃圾邮件”的零假设并屏蔽这封邮件之前,应该设法掌握足够多的证据和相对高的准确性。

2.癌症筛查。我们在医学上有多种方法用于初期癌症的筛查,如乳腺图像(乳腺癌)、前列腺特异抗原测试(前列腺癌),甚至全身核磁共振扫描(看看身体哪个部位存在问题)。对于任何一位进行癌症筛查的人来说,零假设都是没有患上癌症。筛查的作用就是通过发现可疑结果,进而推翻零假设。按常理,Ⅰ型错误(身体没有任何问题的“假阳性”)总是要优于Ⅱ型错误(癌症没有被诊断出来的“假阴性”)。从历史上看,癌症筛查经常站在垃圾邮件过滤的对立面:医生和病人总是愿意容忍一定程度的Ⅰ型错误,而尽力避免出现Ⅱ型错误。最近,美国卫生政策专家开始挑战这一观点,这是因为Ⅰ型错误所导致的高费用和副作用。

3.打击恐怖分子。在这个例子中,Ⅰ型错误和Ⅱ型错误都是不可容忍的,这也是为什么如今社会上还在激烈讨论如何处理好打击恐怖主义和保护公民自由之间的关系。零假设为某人不是恐怖分子。如果换作一个普通的庭审,我们并不希望犯Ⅰ型错误,而将无辜的人送进关塔那摩监狱。但在一个充斥着大规模杀伤性武器的世界里,哪怕是一个恐怖分子逍遥法外(Ⅱ型错误)都会带来不可估量的灾难。不管你是否赞同,这就是为什么美国政府会在证据不充分的情况下依然将大量的可疑分子关到关塔那摩监狱里。

统计推断并非绝对可靠的魔法,但对于认识这个世界来说,它的作用依然是巨大的。通过弄清楚最有可能的解释,我们可以了解生活中的许多现象。我们中的绝大部分人其实每天都在进行着这项工作(例如,“我认为那个晕倒在一堆啤酒瓶中间的大学生肯定是喝多了”,而不是“我认为那个晕倒在一堆啤酒瓶中间的大学生是被恐怖分子毒杀了”)。

统计推断只是将这个过程正式化。

本章补充知识点

计算平均值差异的标准误差

平均值比较公式为

其中, = 样本x平均值

= 样本y平均值

sx = 样本x标准差

sy = 样本y标准差

nx = 样本x的数量

ny = 样本y的数量

我们的零假设是两个样本的平均值相等。上面的公式计算的是两个平均值之差与标准误差之间的比值。我们需要通过正态分布的相关结论对零假设进行验证。假如这两个样本所在群体的平均值是相等的(即它们取自于同一个群体),那么它们的平均值之差小于一个标准误差的概率为68%,小于两个标准误差的概率为95%,以此类推。

在本章的自闭症案例中,两个样本的平均值之差为71.6立方厘米,标准误差为22.7,两者相除得到3.15,也就是说,两个样本的平均值相差3个以上的标准误差。正如之前所说,如果两个群体的平均值相同,那么从这两个群体里分别抽取一个大型样本,其差距如此之大的概率是非常低的。精确来说,两个样本差距大于或等于3.15个标准误差的概率仅为0.002。

图10–2 样本平均值的差异

单尾/双尾假设检验

本章介绍了用抽样的方法检验男性职业篮球运动员的平均身高是否与普通人相同,但我对这个过程进行了研究。我们的零假设是,男性篮球运动员的平均身高与普通男性相同。不过,我没有跟大家说的是,其实我们有两种可能的备择假设。

一种备择假设是,男性职业篮球运动员的平均身高与普通男性不同,他们可能比普通人高(或低)。这与你潜入遇劫客车通过目测乘客体重来判断他们是否为“变化的一生”项目的研究对象的方法是一样的。假如乘客的平均体重比“变化的一生”项目的所有研究对象的平均体重重或轻的程度较大(例子中的情况正好为后者),那么你就可以推翻“他们是研究对象”的零假设。我们的第二种备择假设为男性职业篮球运动员平均身高要高于普通男性,在这种情况下,稍有常识的人都了解篮球运动员基本上不可能比普通人的身材矮。这两种备择假设的区别将会决定我们最后是进行单尾假设检验还是双尾假设检验。

在上述两种情形中,我们都把显著性水平设定为0.05。假如他们的身高相同,那么若发现两组样本之间存在差异,且此差异的出现概率小于或等于5%,我们就可以推翻零假设。到目前为止,这些内容都是我们学过的。

接下来要讲的内容就有点儿复杂了。如果我们的备择假设为篮球运动员比普通人高,我们就需要进行单尾假设检验。我们首先计算出两组男性的身高之差,假如零假设成立,那么平均值差异大于或等于1.64个标准误差的概率只有5%。因此,如果两组男性的身高之差位于这个区间内,那么我们就可以推翻零假设,请看下图。

图10–3 样本平均值的差异(以标准误差为参照)

现在,我们再来考虑另一个备择假设—男性篮球运动员高于或低于普通男性。我们所用的检验的方法大体是一样的。如果两类人的平均身高的确是相同的(零假设),那么当两个样本的平均值之差大于或等于1.64SE的概率只有不到5%时,我们就可以推翻零假设。本题中的“差”还包括篮球运动员比普通人矮的情况,也就是说,如果运动员样本的平均身高与普通人相比差距较大,我们就可以推翻零假设。这就需要我们进行双尾假设检验。现在,需要考虑的推翻零假设的区间存在两个:正方向和负方向。具体来说,推翻零假设的范围现在被一分为二,在坐标轴上分成了左右两条“尾巴”。只要我们得到的结果小于或等于5%的概率,就可以宣告零假设不成立,只不过我们现在有两种情况都可以推翻“球员的平均身高等于普通男性身高”的零假设。

先考虑运动员的平均身高大于普通男性的情况,在计算出运动员高于普通人的差值之后,只有当该差值的出现概率小于或等于2.5%时,零假设才可以被推翻。

再考虑运动员的平均身高小于普通男性的情况,在计算出运动员低于普通人的差值之后,只有当该差值的出现概率小于或等于2.5%时,零假设才可以被推翻。

这两种情况的概率之和为5%,如下图所示。

图10–4 样本平均值的差异(以标准误差为参照)

这个例子是用单尾假设检验还是双尾假设检验更为适合呢?我想,大家的心中一定有答案了吧。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈