Naked Statistics
2012年,《科学》杂志刊登了一项惊人的发现:在求偶期多次遭受雌性果蝇冷落的雄性果蝇会“借酒消愁”。那么,这些果蝇是如何一醉方休的?
2012年春天,研究人员在权威杂志《科学》上刊登了一项惊人的发现。这项前沿研究表明,多次被雌性果蝇冷落的雄性果蝇也会“借酒消愁”。《纽约时报》头版对这项研究描述道:“这些急于成功的年轻雄性果蝇,在面对一群心仪的雌性果蝇时一而再、再而三地遭受打击,结果它们和众多屡次被拒绝的成年男子一样,借助酒精来缓解内心无处释放的欲望。”
这一研究加深了我们对大脑奖赏系统的了解,从而更好地帮助我们在治疗药物和酒精依赖方面寻找新的治疗方法。一位医学专家将这项研究解读为“回到奖赏回路的起源,探究激发基本行为如性爱、进食和睡眠的原始动力”。
由于我本人并非这个领域的专家,因此在读到有关果蝇的这项发现时,我的反应略有不同,主要有两点。首先,这篇报道让我回想起我的大学时光。其次,好奇心驱使我不得不问:这些果蝇是如何一醉方休的?是不是研究者们专门定制了一个小型的果蝇酒吧?吧台里是不是有各种各样的果酒以及一只情感丰富的果蝇酒保?背景音乐是美国乡村音乐吗?失意的雄性果蝇们喜欢乡村音乐吗?
而实验的真相却简单得令人难以置信。一组雄性果蝇可以与正常雌性果蝇自由交配;另一组雄性果蝇所在空间内的雌性果蝇在此之前已经完成了交配,因此它们对雄性果蝇的“猛烈攻势”毫无兴趣。随后,研究人员为这两组雄性果蝇提供了两种喂食棒:一种是普通的果蝇食物—饲料酵母和糖分,另一种是“硬家伙”—除了饲料酵母和糖分,还添加了酒精浓度为15度的酒。那些花了几天时间想要与“性冷淡”的雌性果蝇交配的雄性果蝇,显然对烈酒更有兴趣。
尽管这个实验还存在一些不尽如人意的地方,但得出的结论对于人类来说依然具有重要的意义,实验结果暗示了压力、大脑的化学反应和对酒精的欲望三者之间存在联系。但这样的一个结论并不是统计学的胜利,而是数据的胜利,正是数据让相对基础的统计分析成为可能。这项研究的天才之处在于寻找到了适当的方式,创造了一组性欲得到满足和一组“欲求不满”的雄性果蝇,然后设计了一个能够比较两组果蝇饮食区别的方法。一旦完成了这几个步骤,接下来的数据分析基本上就只有高中科学实验课的难度了。
数据对于统计学家来说,就像是一个组织有效的进攻锋线面对一个明星四分卫。每一位明星四分卫前面都会站着一群优秀的阻挡队员,虽然他们默默无闻,但没有他们,我们就不会欣赏到四分卫的风采。绝大多数的统计学书籍都想当然地以为读者使用的都是好数据,就像每一本烹饪食谱都觉得你不会购买不新鲜的肉和腐烂的蔬菜一样。即使是最好的食谱,面对变质的食材,也无法“化腐朽为神奇”。数据也是如此,如果基础数据本身就有问题,那么再缜密严谨的分析也是徒劳。
一般来说,我们会要求数据做3件事。第一,在评价某一大数据构成的人口特点时,我们可能会用到一个具有代表性的数据样本。比如,调查某个领导候选人的民意支持率,我们就需要对一组潜在的选民进行采访,而且他们应该能够代表所在选区的所有选民(必须明确的是,我们并不需要一个代表所有生活在该区域内的居民的样本,而是代表那些最有可能去投票的选民的样本)。统计学最强大的一点就在于,由一个在合理范围内足够大,并且正确抽取的样本推导出来的结论,能够准确地反映整个人口的特点,做到与对全体人口进行普查得到的结果分毫不差。关于统计学的这一神奇之处,本书会在随后的两章里详细解读。
收集一个人口构成的代表性样本,最便捷的方式就是随机挑选子集(这就是大名鼎鼎的简单随机抽样法)。这一方法的关键在于,相关人口中的每一个人被选为样本的概率必须相同,如果你计划对一个拥有4 328名成年人的社区随机抽取100名成年人作为样本,那么你必须保证这4 328人中的每一个人都有相同的概率进入最后的100人抽样名单。几乎所有的统计学课本都将其描述为“袋中摸球”,假设在一个大口袋中有6万颗蓝球和4万颗红球,那么从这个大口袋中随机抽取100颗球组成的样本最有可能出现的结果是60颗蓝球和40颗红球。如果我们进行多次抽取,显然每一次的结果会有所不同—有时候是62颗蓝球和38颗红球,有时候是58颗蓝球和42颗红球。但是,出现一个极大偏离原始蓝球和红球组成比例的抽样结果的概率是非常低的。
必须承认的是,在实际操作中的确存在一些挑战。绝大多数我们所关心的人口组成总是要比一口袋彩球要复杂,如果要对美国成年人口进行电话调查,究竟要怎么做才符合简单随机抽样的定义呢?即使是一个看似简便易行的随机拨打方案也存在着潜在的缺陷,一些人(尤其是低收入者)可能家里没有安装电话,另外一些人(尤其是高收入者)可能更倾向于视频通话,因此这类电话他们会选择拒绝接听。之后的内容中将会介绍民意调查公司在克服这些困难时所采取的策略,以及应对挑战所积累的经验(随着手机的普及,很多挑战变得越来越棘手和复杂)。不管采用什么策略,核心理念就在于:一个合理采集的样本会呈现其背后的人口特点。从直觉出发,就像从一锅汤里舀出一勺进行品尝,如果之前搅拌得充分均匀,那么这小小的一勺汤足以告诉你整锅汤的味道了。
从统计学教材中,你将会读到有关随机抽样法更为详细的介绍。民意调查和市场分析公司的员工更是不遗余力地投入了大量的时间来研究如何更为经济有效地抽取更有代表性的人口样本。到目前为止,你应该意识到了如下几个重要的点:(1)没有比代表性样本更有用的统计学工具了,统计学要是离了它,马上会黯然失色;(2)获得一个好样本比想象得难;(3)那些耸人听闻的夸张结论,其中有许多都是由于正确的统计方法被应用在了糟糕的样本上,但如果一开始统计方法就是错的,不管样本质量如何,都不会得到应有的结论;(4)样本容量很重要,而且容量越大越好。关于这一点,将会在接下来的章节中具体讲到,直觉可以告诉我们,样本容量越大,那些极端的变量对结果的影响就会越小(一碗汤要比一勺汤更能体现整锅汤的味道)。必须引起注意的是,如果人口组成本身存在问题,即所谓的“偏见”,那么无论样本容量有多大,都无法改变这一“偏见”情况。假设现在你要对美国总统的支持率作一个电话调查,假如你的调查对象只局限于华盛顿的居民,那么他们的意见会跟美国人民的意见有出入,无论你给1 000人打电话,还是给10万人打电话,都无法解决这一基础性的问题。事实上,一个存在偏见的大容量样本甚至要比一个存在偏见的小容量样本更具有误导性,因为人们会因为前者包含的样本数量多而盲目“崇拜”其结论。
我们经常会要求数据做的第二件事是提供比较。新药是不是比原来的治疗方式更有效?接受过职业培训的有犯罪前科的人,再次入狱的可能性会不会比没有接受过职业培训的低?在特许学校上学的孩子在学业上的表现,会不会比在常规的公立学校上学的同龄人好一些?
在这些例子中,我们的目标在于找到两组比照对象,在保证其基本相似的前提下对其中一组进行“处理”并观察结果。在社会科学的范畴里,“处理”一词的内涵可谓丰富,既可以是遭受求偶挫折的果蝇,也可以是享受所得税返还的工薪族。和其他科学实验类似,我们需要将某个特定的外部干扰或属性隔离开,这正是果蝇实验的精妙所在。研究者们想出了一个方法,设计了一个控制组(参与交配的雄性果蝇)和一个“处理”组(备受打击的雄性果蝇),接下来这两组果蝇在饮食习惯上的区别就可以归因于它们是否遭受过求偶挫折了。
在自然科学和生物科学领域,处理组和控制组的设计都相对直接。化学家可以通过一支支不同的试管来调节变化,研究反应结果;生物学家通过培养皿也能达到相同的目的。就算是动物实验,在很多时候也比让果蝇喝酒更容易,我们可以将一组老鼠定期放在跑步机上做常规运动,然后将它们放入迷宫中观察其敏锐度,并与另外一组从来没有做过运动的老鼠进行对比。但是,当我们把人牵扯进来的时候,事情就变得复杂了。一个完善的统计分析经常要求有一个处理组和一个控制组,我们不能强制人去做那些实验室老鼠做的事(而且就连让实验室老鼠做这些事都有很多人反对)。年轻时遭受多次脑震荡会在晚年引发严重的神经问题吗?这是一个非常重要的问题,橄榄球运动(以及其他一些运动)的未来有可能会因为这个问题的答案而发生剧变。但这也是一个无法用人体实验来回答的问题,除非我们教会果蝇如何戴头盔,否则我们就必须寻找其他方式来研究头部创伤带来的长期影响。
在以人为研究对象的实验过程中,一个反复出现的挑战就是如何让控制组和处理组之间只存在一个不同的条件。为此,这类实验所遵循的一条“金科玉律”就是随机取样,即实验对象(可以是人,也可以是学校、医院或任何东西)被随机分配到处理组或控制组。我们无法保证所有的实验对象都是完全相同的,这时,概率便(又一次)成为我们的好朋友。通过随机取样,两组对象的所有相关特性都得到了均匀分配,这其中不仅包括我们能够观察到的特性,如种族、收入等,还包括了那些我们无法衡量或没有考虑到的特性,如耐力、忠诚度等。
我们收集数据的第三个原因,用我那处于青春期的女儿的话来说,就是“因为所以,科学道理”。有些时候我们面对信息时并没有一个明确的想法,但我们觉得总有一天这些数据会派上用场。这就和犯罪现场的侦探心态是一样的,收集所有可能收集到的证据,以供日后整理出线索和思路。当然,有些证据后来被证明是非常重要的,也有些证据从始至终都没有起作用。如果我们从一开始就知道什么是有用的、什么是无用的,那我们也不必大费周折地作调查了。
你大概知道抽烟和肥胖是心脏的大敌,但你可能不知道在弗雷明汉(美国马萨诸塞州东部城镇)展开的一项旷日持久的研究弄清楚了它们之间的关系。弗雷明汉位于波士顿以西20英里(1英里约合1 609米),是一个郊区小镇,约有6.7万人。在普通人的眼里,这里是波士顿的郊区地带,不仅房价合理,而且距离大名鼎鼎的纳蒂克高级商城很近。但在研究人员的眼里,弗雷明汉是“弗雷明汉心脏研究”的所在地,这可是现代科学史上最成功、影响力最深远的纵向研究典范。
所谓纵向研究,就是对大量调查对象一生中不同时间点的信息进行收集,比如每两年进行一次采访。这类研究的参与者们会在长达10年、20年甚至50年的时间里接受定期采访,积累下极为丰富的连续性信息。以弗雷明汉研究为例,研究者们在1948年收集了5 209位弗雷明汉居民的信息,包括身高、体重、血压、教育背景、家庭构成、饮食、抽烟习惯、用药信息等。最为重要的是,从那以后,研究人员便追踪记录这些参与者的数据,同时还将他们的后代纳入数据库中,以观察与心脏病相关的遗传因素。从1950年开始,弗雷明汉研究数据相继被2 000多篇学术文章采用,其中有将近1 000篇是在2000~2009年完成的。
这些研究成果在帮助人们进一步了解心血管疾病方面功不可没,一些在今天看来是常识的认识就来源于这些学术文章:吸烟提高加心脏病发病风险(1960);体育运动降低心脏病发病风险,而肥胖会提高发病风险(1967);高血压提高中风风险(1970);HDL胆固醇(即高密度胆固醇,以后也被称为“有益胆固醇”)含量高会降低死亡风险(1988);父母或兄弟姐妹有心血管疾病的人,极有可能患有相同的疾病(2004~2005)。
纵向数据集好比是研究界的“法拉利”,对需要几年甚至几十年时间去求证的因果关系的探索极具价值。举一个例子,佩里学前教育研究开始于20世纪60年代末,研究人员从美国贫困的黑人家庭中挑选了123名三四岁的儿童,他们被随机分为两组,一组儿童接受了高强度的学前培训,一组则没有接受任何训练。在接下来的40年的时间里,研究人员对两组儿童的多方面表现进行了记录和比较,证明了早期教育的好处。参加学前教育的儿童5岁时的智商就超过了另一组儿童,而且他们中有更多的人从高中顺利毕业,40岁时的收入也普遍高一些。相比之下,另一组没有接受过学前教育的儿童,在40岁前累计入狱5次甚至更多的情况要常见得多。
但不是所有人在任何时候都能拥有法拉利跑车,很多时候丰田车也是不错的选择,研究领域的“丰田”就是所谓的“横向数据集”,即在同一时刻收集到的数据。例如,如果流行病学家正在寻找一种新型疾病(或某种已知疾病)的根源,他们可能会想到去收集所有病患的信息,希望能够从中发现规律:他们都吃了些什么?去过哪里?他们有什么共同点?与此同时,研究人员或许还会收集健康人的相关信息,以凸显两组对象之间的差别。
事实上,在介绍横向数据的过程中,我回想起发生在自己身上的一件往事。那是在我举行婚礼前的一个星期,我不幸成为数据集的一分子。当时,我正在尼泊尔的加德满都出差,被检测出患上了一种名叫“蓝绿藻”的胃病,这是一种还未被医学界熟知的疾病,世界上也只有两个地方发现了这种病。研究人员已经将病原体隔离出来,但由于此前从未有人进行过研究,因此他们还没有弄清楚病原体的有机构造。我给我的未婚妻打电话,告诉她这一坏消息。当时有关这个病的传播原理和治疗方法,医学界并未给出定论,而且在接下来的几天甚至几个月的时间里会导致严重疲劳和其他令人不适的反应。我的婚礼马上就要举行了,这将会是一个大问题,在踏上红毯的时候我的消化系统会不会突然告急?我不敢想象。
但事已至此,我努力将注意力放在好的一面。首先,“蓝绿藻”疾病并不是致命的。其次,远在曼谷的热带疾病专家表示对我的病例十分感兴趣,这是不是很酷?而且,我每次在与未婚妻通电话时都成功地将话题引回婚礼筹备:“不要再说我的不治之症了,现在来说说鲜花吧。”
我在加德满都的最后几个小时里,一直忙于填写各种调查表格,加起来得有30多页,涵盖了我的生活的方方面面:我在哪里用餐?我吃了什么?我是怎么做饭的?我会游泳吗,在哪儿游的,多久游一次?其他跟我诊断出相同胃病的人,也在做着同样的事。后来,病原体终于得到了确认,是蓝藻细菌的一种水生形态(此类细菌呈蓝色,是唯一一种由光合作用获取能量的细菌,因此得名 “蓝绿藻”)。经过证实,“蓝绿藻”胃病只需通过传统的抗生素药物治疗就能痊愈,但令人感到奇怪的是,它对新式的抗生素药物却没有反应。但是,所有这些发现对于当时的我来说都太迟了,幸运的是我很快就恢复了健康,而且在婚礼那天,我近乎完美地管住了我的消化系统。
每一项重要的研究成果都离不开优质数据的默默支持,让分析成为可能;那么每一项糟糕的研究背后,隐藏的是什么呢?人们常说“统计数字会撒谎”,在我看来一些最臭名昭著的统计错误其实是数据的问题,统计分析本身并没有错,但用于计算和分析的数据要么是伪造的、要么就是不适当的。以下举几个常见的例子。(www.xing528.com)
选择性偏见。据说《纽约客》的资深影评人宝琳·凯尔在理查德·尼克松当选美国总统之后曾发表过这样的看法:“尼克松不可能赢,我认识的人都没有投票给他。”虽然这句话可能不是宝琳说的,但至少能说明一点:一个不合格的样本(宝琳的自由派朋友圈)会对整个人口(全美国的选民)产生一个误导性的简单印象。这就引出了一个我们应该时常问自己的问题:在给出评价之前,我们是如何选择样本的?如果人口中的每一个人被选入样本的概率不是均等的,那么由这样一个样本推导出的结论就会存在问题。爱荷华州的民意测验是每届美国总统选举的传统事务,在大选年8月的某天,共和党的几位党内候选人会造访爱荷华州的艾姆斯,为吸引选民造势,有意愿的选民需要购买一张30美元的入场券来到现场进行投票。但是,爱荷华州的这场民意测验结果与共和党即将诞生的总统候选人并没有多大关系(在过去的5届总统大选中,爱荷华州的民意测验只预测对了3位候选人),这是为什么呢?因为花30美元来到现场的爱荷华人并不能代表爱荷华州的其他共和党人,而爱荷华州的共和党人也不能代表美国其他州的共和党人。
选择性偏见也会以其他方式呈现。一个针对某一机场消费者展开的调查肯定是存在偏见的,因为选择乘飞机出行的人一般来说会更加富有一些;而在90号州际公路旁的一个休息点展开的调查,可能会存在与机场调查结果相反的问题。此外,由于愿意在公共场合接受采访的人与不喜欢被打扰的人之间也是有差别的,因此这两个调查都有可能存在先天的偏见。假如你在一个公共场合询问100个人是否愿意接受一个小调查,其中有60人表示愿意回答你的问题,那么这60人与剩下的那些匆匆经过你身边、拒绝跟你有眼神接触的40人之间,可能在某些方面存在着巨大差别。
1936年,《文学文摘》主办的民意测验可谓是史上知名度最高的统计错误,其根源就是一个存在偏见的样本。那一年,共和党人、堪萨斯州州长阿尔夫·兰登竞选美国总统,他的民主党对手是寻求连任的富兰克林·罗斯福。《文学文摘》作为当时影响力颇大的新闻周刊,向该杂志的订阅者以及能够从公共档案中查到地址的汽车和电话主人寄去了一份调查问卷,总共加起来有1 000万名美国公民收到了这份问卷,这个样本容量在当时算得上是天文数字了。对于民调来说,优质样本越大,结果就越准,因为误差在减小;但是如果样本本身存在问题,那么民调规模越大,“垃圾”就会越堆越多、越堆越臭。《文学文摘》预测兰登将会以57%的支持率击败罗斯福赢得选举,而事实又怎么样呢?罗斯福获得了60%的选民投票以及多达46个州(总共48个州)的支持,以压倒性优势赢得了选举。《文学文摘》的样本就是典型的“垃圾”:该杂志的订阅者们比普通美国人要富有,因此更有可能投票给保护富人利益的共和党,1936年家中就拥有汽车和电话的选民的投票情况也是如此。
在医药领域,如果在对实验对象划分实验组和对照组时,没有完全做到随机抽样,我们在比较两组结果时同样会遇到相同的基础性问题。以前列腺癌治疗为例,近期一本医学杂志刊登了治疗这类癌症所产生的副作用的相关发现。通常针对前列腺癌症患者有3种治疗方法:手术移除前列腺、放射治疗,或短程疗法(也就是将放射性“种子”植入癌细胞集中区域)。阳痿是前列腺癌治疗最常见的副作用,因此研究人员分别记录下参与3种治疗方法人群的性功能信息。在接受治疗的两年之后,一项针对1 000名男性的调查结果发现,手术移除组有35%的男性能够进行性生活;放疗组能进行性生活的男性占37%;在接受短程疗法的男性患者中,有43%的人恢复了性生活。
我们能凭借这3个数据,得出短程疗法对男性性功能损伤最小的结论吗?当然不能!该研究报告的作者们明确警告说,由于接受短程疗法的患者通常较为年轻,健康状况也比接受另外两种疗法的病人要好,因此我们不能得出短程疗法对男性性功能损伤最小的结论。这项研究的目的仅是为了记录下每种治疗方法对性功能的损伤程度。
当样本中的个人主动提出要加入治疗组时,就出现了偏见的另一种形式,我们称为选择性偏见。例如,主动提出加入戒毒组的犯人与其他犯人是不同的,因为他们是主动要求加入这个组别的。即使通过跟进,发现戒毒组的成员在出狱之后再次入狱的概率要比没有参加戒毒组的犯人小,也丝毫不能证明戒毒组的存在价值。这些曾经的囚犯已经洗心革面地开始了全新的人生,我们可以说这是因为他们参加了戒毒组,但也有可能是因为其他因素恰好导致其有了主动申请加入戒毒组的愿望(比如产生了再也不想回到监狱的强烈欲望)。我们无法分离其中一种可能(戒毒组项目)与其他可能(成为一个主动申请加入戒毒项目的人)之间的因果关系。
发表性偏见。肯定性的研究发现相比否定性的研究发现来说,更有可能被发表,从而影响我们对事实真相的判断。假设你刚刚完成了一项严谨的纵向研究,得出玩电子游戏不能预防结肠癌的结论。你对一个包含10万美国人的代表性样本进行了长达20年的跟踪研究,发现每天花费数小时时间在电子游戏上的人得结肠癌的概率与那些不玩电子游戏的人基本相同。假定你的方法不存在任何瑕疵,那么哪一本享有声望的医学杂志会发表你的研究成果呢?
没有一本杂志会发表你的研究成果,原因有二。首先,玩电子游戏和患直肠癌之间在科学上并不存在强烈的相关性,因此你开展这项研究的出发点是什么并不明确。其次,也是本节重点要讲的,一个为“某因素不能预防癌症”的事实算不上是一个特别有趣的发现,毕竟有太多的因素都不能预防癌症。无论在医学还是其他领域,否定性的发现都显得单调乏味。
而这种发表性偏见将会导致研究结果的扭曲。假设你的研究生班的一个同学开展了一项不同的纵向研究,她发现每天花很多时间玩电子游戏的人患上直肠癌的概率确实低,这样的结论就有趣多了!只有这类发现才能吸引眼球,容易受到医学杂志、大众媒体、博客以及电子游戏厂商(它们肯定会在产品包装上贴上“玩本游戏有益健康”的标语)的关注。想必过不了多久,美国的“虎妈”们为了“保护”他们的孩子免受癌症的威胁,将纷纷从孩子的手里把课本抢过来,然后逼他们玩电子游戏。
对于统计学来说,巧合的存在决定了异常事情的发生,这是难以摆脱的事实。在100项完成的研究中,就有可能存在一项结论完全不值得信赖的情况,比如玩电游可以降低患直肠癌的风险这样的结论。但问题也随之而来:99项证明电游和直肠癌之间不存在任何联系的研究成果由于枯燥无趣,将不会得到发表;但剩下的那一项声称寻找到二者之间联系的论文会引起注意并最终得到发表,仅仅因为这样的结论是有趣的。偏见的来源并不是研究本身,而是那些能够接触到大众读者的信息载体,于是阅读科学杂志的人会读到这篇关于电子游戏和癌症的文章,在他们的眼里关于这个话题只有一项研究,而且这项研究证实玩电子游戏的确和癌症有关。事实上,有99%的研究证明二者并不存在联系。
我承认,刚刚的这个例子是奇怪了一些,但其中反映的问题是真实、严肃的。《纽约时报》曾发表了一篇关于抗抑郁药物药效发表性偏见的文章,第一句话就是:“抗抑郁药百忧解、帕罗西汀等产品的生产商故意不发表更多的药物试验结果,就是为了获得政府许可,误导医生和消费者对药物真实效果的看法。”那些证明这些药物对治疗抑郁症有效的研究中有94%都得到了发表,而发现这些药物无效的研究中只有14%被发表在相关刊物上。对于抑郁症患者来说,这样的发表性偏见确实会造成误导。如果将所有研究成果进行综合考虑,其实抗抑郁药造成误导的效果只比安慰剂(外观与抗抑郁药相同,给对照组服用,不含任何药物成分)略好。
为了解决这一问题,如今的医学杂志要求所有研究在刚开始时通过项目注册的方式予以告知,否则将取消其出版的资格,杂志编辑可以借此得出某项研究的肯定和否定结论的比例。例如就滑板运动和心脏病的关系这一课题,总共有100项注册研究项目,最后只有一项得到了肯定结论并要求出版,那么杂志编辑就可以推导出剩下的99个项目都得出了否定结论(或者至少他们可以对这一概率进行调查)。
记忆性偏见。回忆确实很神奇,但并不是优质数据的可靠来源。我们总是认为现在和过去是有逻辑联系的—有因才有果,这符合人类的思考方式。但问题是,当我们试图解释当前一些特别好或特别坏的结果时,我们的记忆便会出现“系统脆弱”的尴尬。1993年,一位哈佛大学的研究人员进行了一项关于饮食习惯和癌症关系的研究,他收集了两组女性的饮食习惯数据,一组对象为被诊断出患有乳腺癌的女性,另一组对象则由年龄相仿的健康女性组成,通过对她们早年的饮食习惯进行对比研究发现:患有乳腺癌的女性在年轻时喜欢吃高脂肪含量食物的人数明显偏多。
但实际上,这项研究并不能揭示饮食习惯和癌症之间的关系,仅仅只是告诉我们癌症是如何影响一个女人对她早期饮食习惯的记忆的。所有参与研究的女性在几年前都接受了一个关于饮食习惯的调查,那时她们中间还没有一个人被诊断出患有癌症。一个令人震惊的发现是,患有乳腺癌的女性在回忆她们的饮食构成时,食物的脂肪含量明显上升了,甚至比她实际摄入的要高得多;而没有患上乳腺癌的女性则没有这一倾向。《纽约时报》是如此形容这一记忆性偏见的“阴险本质”的:
一纸乳腺癌的诊断书不仅改变了一个女性的现在和未来,还改变了她的过去。患有乳腺癌的女性(无意识地)认为摄取过多高脂肪含量食物的饮食习惯极有可能是她们患病的罪魁祸首,因此她们的记忆(无意识地)认为自己过去摄入了太多高脂肪含量的食物。了解这一疾病历史的人,对于这样的一种思维方式是再熟悉不过了:这些女性与千万女性一样,不断回忆过去想要从中找到一个患病原因,然后再将这个原因植入记忆。
没有记忆性偏见是纵向研究优于横向研究的一个方面。纵向研究的数据都是基于当前收集的,当研究对象5岁的时候,我们会问他对于上学的看法,13年之后,我们可以对其进行回访,看看他是不是从高中辍学了。横向研究的所有数据都是在某一个时间点上截取的,我们只能问一个18岁的高中辍学生当他5岁的时候对于上学持哪种态度,这位研究对象的回答必然没有13年前那么可靠和真实。
幸存者偏见。假设一位高中校长对外宣称学校里有一批学生的考试分数在过去4年中稳步提高(美国的高中为4年制),他们读高二时的考试分数比高一刚入校时的分数高,高三时的考试成绩再创新高,当然高四时的考试成绩又是高中四年中最好的。在这一过程中保证不存在弄虚作假行为,甚至没有任何对描述性数据的“创新使用”。这批学生每一年的成绩在平均分、中位数、高分段的学生比例等各方面都优于上一年。你是会提名该校长为“年度校长”,还是会要求他提供更多的数据?
我当然会选择后者,因为我嗅到了“幸存者偏见”的味道。当样本中有一些或许多数据缺失,导致样本组成发生改变,从而影响分析的结果时,幸存者偏见就出现了。让我们来假设这是一个不合格的校长,他的学生不学无术,每年都有1/2的学生辍学,虽然没有一个学生有真正的进步,但这对于学校的总体成绩来说其实是一件非常有利的事。一个最符合事实的假设是,成绩最差的学生最有可能成为辍学大军中的一员,随着越来越多这类学生离开学校,剩下的学生的平均成绩自然会逐渐上升。这就像一个房间里站满了身高不等的人,让较矮的人离开自然会让房间里的人的平均身高上升,但实际上没有一个人长高了。
共同基金正是(阴险地)死死地抓住了幸存者偏见,来使自己的业绩看上去比实际上要好。共同基金通常会将它们的表现与股票市场的某个关键基准进行比较,如标准普尔500指数,这是一个由美国500家行业内领先的上市公司构成的股票指数。如果某年标准普尔500指数上升了5.3个百分点,某只共同基金便会宣称自己的涨幅超过了标准普尔500指数的涨幅;如果标准普尔500指数在这一年出现了下跌,那么共同基金便宣称自己的跌幅低于标准普尔500指数。如果作为投资者的你不想花钱请一个共同基金经理,那么一个低廉、便捷的选择就是买入标准普尔500指数基金,这也是一种共同基金,只不过投资的股票是标准普尔500指数包含的这500家公司。共同基金经理们总是觉得自己是精明的投资人,有能力运用他们的知识在茫茫股海中挑出那些表现优于指数基金的股票。但事实上,要想一直战胜标准普尔500指数,并不是一件容易的事。标准普尔500指数基本上是所有交易中的大型股票的平均值,因此从数学的角度来思考,我们可以预期有1/2的管理活跃的共同基金的表现会超过标准普尔500指数,1/2的共同基金的表现不如标准普尔500指数。当然,如果输给了一个完全不用思考、只需要买进500只股票并持有它们的指数基金,共同基金经理们自然会觉得丢脸,因为前者既不需要投资分析,也没有炫目的宏观预测机制,而且更让投资者欢呼雀跃的是,还没有高额的管理费。
传统意义上的共同基金公司一般都会怎么做呢?操纵数据是永远的“救心丸”!下面就来说说,它们是如何在没有跑赢市场的情况下“跑赢市场”的。某家大型共同基金公司会同时开放许多只共同基金(有专家专门负责挑选股票,通常会有一个特定的关注点或策略),举个例子,假设一家共同基金公司开放了20只新基金,其中每只基金跑赢标准普尔500指数的概率都约为50%(这一假设与长期数据是吻合的)。现在,基础概率学告诉我们,该公司第一年只有10只新基金的表现能够打败标准普尔500指数,连续两年打败标准普尔500指数的基金为5只,连续3年打败标准普尔500指数的基金只剩下了2~3只。
最精彩的内容马上就要来了。届时,那些相比标准普尔500指数收益率不够理想的共同基金基本上都已经被悄无声息地关闭了(它们的剩余资产都被并入其他现有的基金中)。该公司接下来就可以大肆打广告,宣传这两三只“表现始终优于标准普尔500指数”的基金了,而实际上,它们在这3年的良好表现就相当于连续抛3次硬币都得到正面朝上的结果一样。它们接下来的表现很有可能会回归平均值,但此时投资者的钱已经被成功地骗进来了。真正能够在相当长一段时间里,对标准普尔500指数保持不败战绩的共同基金或投资专家少得可怜。
健康用户偏见。定期服用维生素的人更有可能不受疾病的困扰,因为他们就是那类定期服用维生素的人!至于维生素到底对他们的健康有多大帮助,那就是另外一回事了。下面有这样一个思维实验,假设公共卫生官员发布一个理论:所有家长都应该给他们刚出生的孩子穿上紫色睡衣睡觉,因为这会刺激孩子的大脑发育。20年后,纵向研究证实,穿紫色睡衣睡觉的孩子更有可能在人生中获得成功。举例说明,我们发现在哈佛大学学习的大一新生中,有高达98%的人在孩童时期(甚至到现在)都穿着紫色睡衣入睡;而在马萨诸塞州州立监狱系统内的犯人中,只有3%的人有穿紫色睡衣入睡的童年经历。
紫色睡衣当然不会有什么作用,真正起作用的是给他们的孩子穿上紫色睡衣的家长。即使我们意识到在研究过程中要对家庭教育等因素进行控制,我们还是没办法做到面面俱到,尤其是诸如给孩子穿什么颜色的睡衣这样的细微差别,但那些着迷于给孩子穿上紫色睡衣和从没想到要这样做的两类家长之间是存在区别的。正如《纽约时报》健康专栏作家加里·陶布斯所解释的那样:“就从最简单的角度来分析,那些忠于健康生活方式的人—按时吃药、保持健康的饮食习惯等—与其他人有本质区别,这就是问题所在。”对于那些试图揭示某些活动(如定期运动或喝蔬菜汤等)是否对健康有益的研究来说,这样的一种偏见可能会使结论变得没有那么清晰。我们觉得自己所比较的只是某种单一的饮食差异—喝蔬菜汤和不喝蔬菜汤,但事实上,如果处理组和控制组的成员没有实现完全的随机取样,我们所比较的就是两类不同的人了:习惯喝蔬菜汤的那一组人拥有健康的生活习惯,而不习惯喝蔬菜汤的人可能在生活的其他方面也忽略健康习惯。
如果把统计学比作侦探工作,那么数据就是线索。我的妻子在新罕布什尔州的一个小镇当了1年的高中教师,她的一个学生有一天因为潜入五金店偷工具被抓起来了。警方之所以能够破案,是因为案发当天刚下过雪,从五金店到那个学生家这段距离的雪地上留有脚印;丢失的工具在学生的家中被找到。可见,好的线索的作用有多大。
优质的数据就是好的线索,但首先我们必须收集到优质数据,而这要比看上去困难得多。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。