Naked Statistics
就在不久前,数据的收集还是一件非常困难的事情,数据的分析更需要支付高昂的费用。过去的交易记录都需要借助纸质收据,因为用于分析累积数据的个人电脑还没有出现,但在区区几十年后的今天,我们甚至可以对某个区域内超过100万张信用卡的交易进行数据分析。在大萧条时期,官方数据的缺失使得美国对经济问题的严重程度认识模糊。那时的美国政府并没有对国内生产总值和失业率等指标进行统计,也就是说,政客们在作经济决策的时候几乎是摸黑进行,就好像在大森林里寻找出路,但身上又没带指南针。1930年美国总统赫伯特·胡佛宣布大萧条结束,但其所参考的依据尽是些不准确的过时数据。他在国情咨文中告诉全体国民美国有250万人没有工作,但实际的失业人数已经高达500万人,而且还在以每周10万人的速度增加。正如詹姆斯·苏洛维奇最近在《纽约客》上撰文指出,“那时的美国政府完全是在一片漆黑中制定政策。”
如今,各种数据几乎要把我们“淹没”,但从总体上看,这是一件好事情。本书所介绍的统计学工具能够帮助我们解决一些重要的社会问题。因此,我觉得用问题而非答案来结束全书是再合适不过了。在我们消化和分析海量信息的同时,想想下面的这5个重要(且随机)的问题,通过合理运用书中介绍的知识与工具或许就能给出具有社会意义的答案。
橄榄球的未来在哪里?
2009年,马尔科姆·格雷德威尔在《纽约客》的一篇文章里提出了一个问题:斗狗和橄榄球有多不同?第一眼看到这个问题时,我的感觉是作者故意在哗众取宠、制造效果。格雷德威尔之所以将这两种运动联系到一起,是因为四分卫迈克尔·威克曾因参与斗狗而被判入狱,出狱后又重新加入美国职业橄榄球联盟,而此时正值传言四起:橄榄球运动带来的头部损伤有可能会导致晚年抑郁、记忆丧失、痴呆以及其他神经问题。格雷德威尔的核心观点是,无论是斗狗还是职业橄榄球,对其参与者来说都是具有破坏性的。读完整篇文章,我不得不承认作者独到的眼光。
我们所知道的是,有越来越多的证据表明,橄榄球运动过程中产生的脑震荡和其他大脑损伤能够导致严重且永久的神经伤害。(拳击手和曲棍球运动员身上也存在类似的现象。)许多知名的职业橄榄球运动员都曾在公众面前分享过他们退役后与抑郁、记忆丧失以及痴呆等疾病抗争的故事。最令人感到心酸的莫过于前芝加哥熊队安全队员、“超级碗”冠军戴夫·杜尔森,他开枪结束了自己的生命,在遗书中他明确指示家人将他的大脑捐献给相关机构用于科研。
在一次随机电话调查中,有1 000名联盟生涯在3年或3年以上的前职业橄榄球运动员接受了采访,年龄在50岁以上的运动员中有6.1%被诊断患有“痴呆、阿尔茨海默症或其他记忆力相关疾病”,是相同年龄段美国平均水平的5倍。在年轻运动员群体中,类似疾病的诊断率达到了美国平均水平的19倍。至今已有数百名前美国职业橄榄球联盟运动员将联盟和运动头盔制造商告上了法庭,理由是他们涉嫌故意隐瞒有关头部损伤危害的信息。
安·麦基是马萨诸塞州贝得福德退伍军人医院神经病理学实验室的一名研究员,主攻大脑损伤给神经带来的影响(巧合的是,麦基同时也主持了弗雷明汉心脏研究项目的神经病理学部分)。麦基博士在拳击手、橄榄球运动员等人的大脑中发现了异常微管相关蛋白(tau蛋白)积累的证据,而tau蛋白就是导致慢性创伤脑部病变(CTE)的“元凶”,随着运动员年龄的增大,他们的神经紊乱开始变得越来越明显,其中有许多症状与阿尔茨海默症非常相似。
与此同时,其他科学家也在研究橄榄球和大脑损伤之间的关系。北卡罗来纳州州立大学运动脑震荡研究中心的凯文·加士奇维茨在北卡罗来纳州橄榄球队的每一位队员头盔内嵌入了一个感应器,以便记录下运动过程中队员受到的头部撞击的力度和性质。根据他所获得的数据,运动员日常每受到一次头部撞击,就相当于坐在一辆时速为25迈的车里突然遇到车祸时脑袋撞上挡风玻璃所受到的撞击。
但在这个例子中,有一些信息是我们无法知晓的。到目前为止,我们已经发现的有关大脑损伤的证据是否就能全权代表所有职业橄榄球运动员退役后所面临的神经病变风险?还是说,遭遇不幸的人只是所有运动员中的“一小撮”,即统计学上的“异常值”?就算真的是所有橄榄球运动员在晚年患上神经紊乱的风险高于常人,我们也无法证明两者之间的因果关系:可能是爱好并从事橄榄球(或拳击、曲棍球)运动的人天生就容易患上此类疾病;也有可能是其他一些因素,如注射类固醇导致了他们晚年的神经疾病。
假如不断有证据表明,橄榄球运动与永久性大脑损伤之间存在清晰的因果关系,那么一个严峻且现实的问题就摆在了运动员(以及青少年运动员的家长)、教练员、律师、NFL官员,甚至政府有关人员的面前:能否在橄榄球运动过程中避免或减少对运动员头部的损伤?如果不能,那下一步该怎么做?这就是马尔科姆·格雷德威尔将橄榄球与斗狗放在一起进行比较的目的,他解释说,公众之所以抵制甚至憎恶斗狗,是因为狗的主人明知这项活动会给狗带来伤痛和折磨,还故意这么做,这是为什么?就是为了取悦观众、赢得奖金。在19世纪,斗狗在美国被广泛接受,但在今天的社会,无论是在道德上还是法律上都不会接受这样一种残忍的运动。
在回答当下的职业橄榄球运动是否存在未来这个问题上,本书介绍的几乎所有统计分析方法都被研究人员派上了用场。
是什么导致了自闭症患者数量的激增?
美国疾病控制中心在2012年披露,每88个美国儿童中就有一个被诊断患有自闭症谱群疾病(基于2008年数据)。2002年的确诊率为1/150,到了2006年,确诊率攀升到了1/110—在不到10年时间里翻了将近一番。自闭症谱群疾病(ASDs)主要指的是,儿童在成长过程中表现出与人接触、交流和行为举止上的异常和障碍。“谱群”暗示自闭症所包含的行为症状内容广泛。男孩子被诊断为自闭症的概率是女孩子的5倍(也就是说,男孩子的患病概率甚至要高于1/88)。
第一个颇有意味的统计问题就是:我们是不是正在迎来某种“自闭症发病潮”、“自闭症诊断潮”,或二者的结合?在之前几十年的时间里,患有自闭症谱群疾病的儿童可能没有被诊断出来,或者他们所表现出来的成长障碍被笼统地归类为“学习障碍”。如今的医生、家长和老师对自闭症谱群疾病的症状认识更加清晰,因此不论自闭症本身是否正在蔓延,其诊断人数的增多都是必然。
但是无论如何,自闭症的高发率所带来的挑战必须引起家长、老师和全社会的关注。每个自闭症患者一生的医疗开销平均为350万美元,虽然不是什么传染病,但我们对自闭症的病因依然所知甚少。美国精神健康学会主任托马斯·英塞尔曾说,“(自闭症)是手机引起的吗?或者是超声波、无糖苏打水?1 000位家长有1 000个答案。就目前来看,我们还不得而知。”
自闭症儿童的成长环境和出身背景有什么不同或独特的地方?他们与非自闭症儿童之间最显著的生理差异在哪里?美国各地的自闭症发病率都是一样的吗?如果不是,那是什么原因导致的?借助传统的统计侦查手法,我们或许能够找到一些线索。
加利福尼亚大学戴维斯分校的研究人员近期进行了一项调查,发现该州有10个地方的自闭症确诊率与周围区域相比高出一倍,这10个地方无一例外都是受教育程度高的白人聚集区。这会是一个巧合,还是一个线索?是不是条件相对优越的家庭更容易生出自闭症儿童?同一批研究人员还进行了另一项研究,从1 300个自闭症儿童家庭中收集灰尘样本来分析其中的化学成分,看是否存在某些环境污染物从而引起了儿童自闭症。
在此期间,另外一些研究人员发现自闭症与基因存在关系。他们发现,如果家中的两个小孩是同卵双胞胎(拥有完全一样的基因组成),那么他们同时患上自闭症的概率就要大于异卵双胞胎的两个小孩。但这一发现并不能排除环境因素的强大作用,自闭症既有可能是基因与环境共同作用的结果,也有可能完全是后天环境所引起的。比如说心脏病,虽然先天的基因构成至关重要,但吸烟、饮食、运动以及其他行为和环境因素都会诱发心脏病。
到目前为止,统计分析所做的最有贡献的事就是排除了无关因素,这些因素一开始会进入人们的视线是因为它们混淆了相关关系和因果关系的区别。自闭症通常会发病于儿童一周岁生日过完之后两周岁生日到来之前,因此,很多人就认为在此期间接种的疫苗,尤其是麻疹、腮腺炎和风疹三联疫苗(MMR)是导致儿童自闭症高发的“罪魁祸首”,来自印第安纳州的美国国会议员丹·波顿曾对《纽约时报》说,“我的孙子在一天内接种了9支疫苗,其中有7支含有硫柳汞,你可知道这里面有50%都是汞啊,不久以后他就被确诊为自闭症。”
今天,科学家已经完全排除了硫柳汞与自闭症之间的相关性。就算注射的是不含任何硫柳汞成分的三联疫苗,自闭症儿童也不会因此减少;在没有推广三联疫苗的国家里,自闭症的确诊率也没有比注射疫苗的国家低到哪里去。但只要这种伪相关性存在一日,就会有家长拒绝带他们的孩子去接受疫苗接种。讽刺的是,这样做不但不会减少孩子患上自闭症的风险,反而会将他们置于感染其他严重传染病的更大的危险之中(并加剧这些传染病在人群中的传播)。
自闭症是当今医学和社会学所面临的最严峻的挑战之一。对于这种给人类福祉造成如此巨大(而且有可能还在扩大)冲击的疾病,我们的了解却少之又少。科学家正在夜以继日地运用本书提到的每一种统计学工具(以及更多没有提到的方法)来改变目前这种被动的局面。
我们依据什么来奖励优秀的教师和优质的学校?
我们需要优质的学校,优质的学校又需要优秀的教师,因此正常逻辑要求我们对优秀的教师和优质的学校给予奖励,同时解雇不负责任的教师,关闭教学质量不佳的学校。
如何才能做到这些?
考试分数为我们提供了一个客观的衡量标准。但我们也知道,一些学生能在统考中发挥出色是因为其他方面的因素,与教师和学校并无关系。想要正确评价学校和老师,一个看似简单的解决方案是,观察学生入校后是否在学习上有所进步以及进步幅度。当学生们刚开学的时候,他们都有哪些知识储备?一年后,他们对世界的认识又丰富了多少?学生通过上课增加的“附加值”就是区别所在。
我们甚至还可以通过统计学来对该附加值进行更为精确的感知,综合考虑某个班级里学生的人口统计学构成,如种族、家庭收入等,以及他们在其他测试中的表现(作为评价他们资质的参考)。如果班上学生的成绩原来一直在及格线边缘徘徊,在换了一位老师上课后没多久,学生成绩就出现了显著提升,那么这位老师的教学效率就非常高。
一切就绪!现在我们就可以用精准的统计学工具来衡量教师的教学质量了。至于怎样才算得上一所优质的学校,当然就是看这所学校有没有大量高效的优秀教师了。
这些便利的统计评估方法在实际应用过程中的实施效果如何?2012年,纽约市率先“试水”,对全市1.8万名公立学校的教师进行了“附加值测试”评级—在综合考虑学生情况的前提下,重点观察学生考试分数的提升程度。《洛杉矶时报》在2010年的时候,也曾对洛杉矶的教师进行过类似的评级。
无论是在纽约还是在洛杉矶,对教师评级制度的反应都非常强烈,而且各种观点都有。美国教育部部长阿恩·邓肯总体上支持此类评级项目,因为它们填补了这方面的信息空白。洛杉矶政府公布教师评级数据之后,邓肯在接受《纽约时报》采访时表示,“不能再继续沉默下去了”。奥巴马政府还给各个州划拨了专用经费,用于开发附加值测试项目来指导教师的工资改革和职业成长。评级的支持者们义正词严地指出,这是教师管理体系的一次飞跃,过去所有教师发的都是统一的固定工资,与他们的课堂教学表现无关,起不到激励教师改善教学质量的作用。
但是也有许多专家警告,这类教师评级数据存在极大的误差,有可能会误导公众。纽约教师工会投入了十多万美元在报纸上大打广告,标题就是“教师不是这样评价的”。项目的反对者称,附加值评级带来的“伪精准”会被那些不了解这类评级的局限所在的家长和公共政策官员滥用。
这就是一个典型的“公说公有理、婆说婆有理”的案例,无论是哪一方,都能在某种程度上站住脚。达特茅斯大学的经济学家道格·斯塔格长期从事教师附加值数据方面的研究,他警告说这类数据本质上是“有漏洞”的。对于某一位教师的评估,经常是建立在某一班学生参加某一天某一场考试的基础上,这其中有太多的因素会影响到他们的发挥—从这群学生本身到考试当天的空调,可谓是防不胜防。这些评价指标与教师每一年的教学表现的关联度只有约0.35。(有意思的是,评价美国职业棒球联盟选手的指标与其年运动表现的关联度也是0.35,其中击球手的评价指标为击球率,投球手的评价指标为防御率)。
斯塔格说,虽然这类关于“以考分论英雄”的教学效率的数据非常有用,但也只是评价教师的参考指标之一。如果有关部门能够积累某位教师更多年份的教学效率数据,涉及更多不同的班级,就可以减少这类数据的“漏洞”(这与评价运动员是一个道理,掌握比赛和赛季的数据越多,给出的评价就越客观)。在纽约教师评级的例子中,每个学校的校长都被告知应该正确看待附加值数据,清楚这些数据的“先天缺陷”。但是,公众对这些“缺陷”和数据结论的局限性并不知情,因此人们经常将其视作评价一位教师教学质量的决定性指标。我们总是对排名心存好感,甚至有的时候数据根本不支持如此精准的结论,就比如《美国新闻与世界报道》的大学排名。
斯塔格最后还提醒说:我们最好保证所评估的结果(比如某次统考的成绩)从长远来看与我们真正关心的指标保持一致性。来自空军学院的一些独特数据显示,现阶段优异的成绩并不代表未来光明的前景,关于这一点并不令人感到惊讶。与其他军事学院一样,空军学院会随机安排学生学习不同的标准考试指定科目,如初级微积分等。学生的随机分配在评价教师的教学效率时完全排除了选择性偏见可能对结果产生的影响,只要观察期足够长,我们就可以假设所有教师教导的学生都拥有相同的资质(这一点与绝大多数的大学不同,在这些学校里,学生可以根据自身能力和兴趣的不同,选修或退选不同的课程)。针对每一门课程,空军学院还采用了相同的教学大纲和考试。加利福尼亚大学戴维斯分校的斯科特·卡瑞尔教授和空军学院的詹姆斯·韦斯特教授就看准了这一近乎完美的教学安排,并以此来回答高等教育领域一个最为重要的问题:哪位教授的教学效率最高?
答案是:经验偏少又在非名牌大学取得学士学位的那些教授们。他们的学生在初级课程的标准考试中的成绩普遍较好,而且他们在教学评估中得到的学生评价也通常较好。显而易见,这些年轻、充满干劲的老师对待教学比脾气暴躁的哈佛大学博士老教授要认真负责得多。那些老人家至今还在用1978年的陈旧教案来教学生,他们或许还以为演示文稿软件(PPT)是某种功能饮料—除非他们连什么是功能饮料都没见过。根据数据,我们早就应该将这些年龄过大的教授解雇了,或者让他们有尊严地退休。(www.xing528.com)
不过,我们先别急着解雇任何人。空军学院的研究还有另一个发现—学生的长远表现。卡瑞尔和韦斯特发现,在数学、科学等学科的初级课堂上,经验更丰富、资格更老的老师教出来的学生在接下来的中级、高级课程中的表现要优于年轻教师教出来的学生。一个符合逻辑的推理就是那些资历尚浅的老师更倾向于在初级课堂上“教学生如何去应付考试”,因此他们的学生在考试中的分数通常比较高,学生自然会感到开心,给老师的评价自然也不会差。
但是,那些上了年纪的、脾气固执的资深教授们(我们在前一段的内容中差点儿就解雇了他们)更关注的是教授重要的理论和概念,而不是考试,这对于学生的进一步学习以及一生都会是受益匪浅的。
当然,我们还是需要对教师进行评估,但必须要采用正确的方式。相关部门在制定政策时所面临的长期挑战是,如何在统计学的基础上开发一个系统,来奖励教师在课堂上为学生所贡献的附加值。
解决全球贫困的最佳途径是什么?
如何才能让贫困国家摆脱困境?关于这个问题我们在很多时候真的只能用“束手无策”这4个字来形容。但是,我们却清楚地知道如何区分富裕国家和贫困国家,比如从它们的教育水平、政府服务质量等方面进行比较。而且,我们也目睹了如印度、中国等国家在过去几十年的时间里所经历的经济大发展。但即使如此,我们还是不清楚应该怎么做才能让马里、布基纳法索等极端贫困的国家改善现状。
法国经济学家艾丝特·迪弗洛对原始的统计学工具—随机控制实验进行了改进,赋予其全新的功能,改变了我们对全球贫困问题的认识。迪弗洛是一位麻省理工大学的教授,主要研究的是不同介入方式对改善发展中国家贫困现状的效果。举个例子,印度学校长久以来面临的一大问题就是教师居高不下的缺勤率,尤其是在偏远农村地区的学校,这些学校通常只有一位老师。迪弗洛和她的研究伙伴雷玛·哈纳借助科技手段设计了一个聪明的方案来对印度拉贾斯坦邦的60所只有一位教师的学校进行随机抽样实验。在这60所学校教书的60位教师如果出勤率高的话,就会得到额外的奖励,但如何才能保证他们不在出勤率数据上造假呢?创意来了:迪弗洛和哈纳给他们每人发一台相机,用这台相机拍出的照片都会有日期水印,而且这个日期是无法篡改的。教师们每天都要跟他们的学生合一张影,表示这一天他们来学校教课了。
迪弗洛和哈纳还随机抽取了另外60所学校作为对照,结果表明,实验组教师的缺勤情况减少了1/2,这些学校学生的考试成绩也提高了,越来越多的学生顺利地进入下一个阶段的学习。(我敢肯定那些照片一定好看极了!)
迪弗洛在肯尼亚还进行了一项实验,随机抽取一组农民在丰收之后向他们发放小额补贴用于购买化肥。之前已经有证据表明,化肥可以显著地提高粮食产量。农民们其实很清楚这一好处,但每次开始种新庄稼的时候,他们手中剩余的钱已经不足以购买化肥了。这就导致了所谓的“贫困陷阱”,苦苦挣扎的农民们实在是太穷了,以至于他们无力改变贫困的现状。迪弗洛和她的研究伙伴发现,在粮食收获之后如果农民们手中还有现金,只要为他们提供一点儿补贴—化肥免费送货上门,就能将化肥的使用率提高2%~10%。
艾丝特·迪弗洛甚至还卷入了性别战争。在管理家庭财产的问题上,谁能作决定—男人还是女人?在发达国家,夫妻两人可以就这个问题在他们的婚姻顾问面前吵上一整天;但在贫困国家,这个问题决定了家里的小孩能否吃饱饭。从古至今,人们一直存在一个观念,那就是家中的女性总是将孩子的健康和幸福置于一个极高的位置,而家中的男性更倾向于把工资都花在喝酒或其他消遣上。往差了说,这种观念只会让一成不变的偏见更加根深蒂固;往好了说,我们只能认为这是一个难以证明的观点,因为一个家庭的财政在一定程度上受到很多因素的影响。丈夫和妻子对家中的共同财产都有支配权,那么我们该如何将二者的消费选择进行控制并逐个分析呢?
面对这个如此复杂和微妙的问题,迪弗洛没有选择逃避。她甚至还为此进行了一个令人无比着迷的自然实验。在科特迪瓦,家中的男性和女性共同承担种植庄稼的工作,而且一个长久以来约定俗成的做法是,男性和女性各自耕种不同的经济作物,男性种可可、咖啡等,女性种芭蕉、椰子等。从研究者的角度,这种天然安排的好处是男女种植的不同经济作物对雨量的需求恰好相反:在可可和咖啡丰收的年份里,家中的男性会拥有更多的可支配收入;在芭蕉和椰子丰收的年份里,家中的女性会拥有更多的可支配收入。
现在,我们只需要将刚才那个棘手的问题提出来:在科特迪瓦的这些家庭中,孩子们是希望爸爸的作物丰收从而让生活变得更好,还是希望妈妈的作物丰收从而让自己过得更幸福?
回答是:当女性的收入提升时,她们会将手中余钱的一部分用于改善家庭的伙食,但男性通常不会这么做。所以,男同胞们,这次对不住了。
2010年,迪弗洛获得了有“小诺贝尔经济学奖”之称的约翰·贝茨·克拉克奖,该奖项是由美国经济协会授予的,颁奖对象为在美国大学任教、40岁以下的学者。在经济圈,尤其是经济学“怪人”圈中,这个奖被看作比诺贝尔经济学奖分量更重的荣誉,因为约翰·贝茨·克拉克奖每两年才颁发一次(但是从迪弗洛获奖的这一年起,颁奖周期改为一年一次)。无论如何,约翰·贝茨·克拉克奖是所有佩戴厚镜片的人心目中的MVP(最有价值球员)。
迪弗洛所作的就是项目评估,她的工作以及所有采用她的研究方法开展的工作,切切实实地改变了穷人的命运。从统计学的角度看,迪弗洛的研究启发了我们对随机控制实验的看法,这一长久以来被认为只属于实验室科学的研究方法,原来也可以被广泛地运用到现实生活中,为人类破解许多生活领域的因果关系。
猜猜你是谁?
2012年夏天,我家雇了一个新保姆。她来到我家里的第一天,我向她介绍我们的家庭背景:“我是一名教授,我的妻子是一位老师……”
“这些我都知道了,”那位保姆的手轻轻一挥,一脸轻松的表情说道,“我登录谷歌网页搜索过你。”
我心里一阵轻松,因为这代表我不需要再喋喋不休地介绍了,但同时我也有点担心,在搜索框里输入我的姓名,我的生活便可以“一览无余”到什么程度?通过廉价的计算成本将信息数字化再加上与互联网的结合,我们收集和分析海量数据的能力在人类历史上已经达到了空前的程度。在这一全新的领域,我们越来越需要制定一些新的规则。
让我们以美国知名零售商塔吉特公司为例,来感受一下大数据的力量。与绝大多数公司一样,塔吉特致力于从消费者的角度考虑问题,以达到利润的最大化。为了做到这一点,公司聘请了统计专家来完成本书在之前篇章里介绍的那些预测分析工作,通过销售数据与其他消费者信息的结合来回答“谁买了什么商品以及为什么买这些商品”的问题。当然,这一切都不是坏事,因为这意味着在你家附近的塔吉特商场里就能买到你需要的商品。
对于这个例子,我们还可以思考得再深入一点,看看那些统计专家们在公司总部连窗户都没有的地下室里天天忙忙碌碌研究出哪些东西。塔吉特知道,怀孕的女性是养成消费习惯的最佳人群,在这期间一旦与她们建立起“零售关系”,未来的几十年里都能看到这些母亲们进出塔吉特商场的身影。因此,塔吉特就需要从茫茫的消费者中“定位”出孕妇们,尤其是怀孕3~6个月的准妈妈,想办法让她们更经常地来逛商场。《纽约时报》的一位签约作家全程跟随了塔吉特的一个预测分析团队来了解他们是如何定位并吸引孕妇的。
第一步非常简单。塔吉特向会员提供了迎婴礼物登记服务,怀孕的会员可以在孩子出生前登记领取婴儿礼品。这些女性已经是塔吉特的购物者,而且她们会主动告诉商场自己怀孕的消息。此外统计专家还发现,其他那些与上述消费者有着相似消费倾向的女性可能也怀孕了。举个例子,怀孕的女性通常会将沐浴露换成无香味的,她们会开始购买维生素类保健品,购买棉球等卫生用品时会选择大包装的。塔吉特公司的预测分析专家们精挑细选出25种商品,这些商品共同构成了一个“怀孕预测得分”体系,所有分析的最终目标就是向怀孕女性发放相关商品的优惠券以吸引她们前来购买,并最终让她们成为塔吉特公司的长期消费者。
这一分析模型的效果如何?《纽约时报》上曾经刊登过一篇报道,讲的是明尼阿波利斯市的一位父亲来到一家塔吉特商场要求见经理,他愤怒地向经理投诉,说他还在上高中的女儿最近受到了塔吉特的母婴类商品优惠券的“轰炸”。这位父亲愤然问道:“她还在上高中,你们一天到晚给她寄婴儿服装和摇篮的优惠券,是鼓励她怀孕吗?”
商场经理当场表示抱歉,甚至几天之后他还不忘打个电话再次道歉,但这一次那位父亲的气不仅全消了,反而还跟经理道歉。父亲说:“其实不怨你,最近家里出了一些事情,我之前被蒙在鼓里……对了,我女儿的预产期是8月份。”
塔吉特的统计专家甚至比这位父亲更早知道女儿怀孕的消息。
预测与统计专家们的生活无关的事情就是统计专家的工作。但在有的时候,这会让消费者觉得自己的隐私被侵犯了,出于这一点的考虑,一些商家如今会刻意在消费者面前“装傻”,假装对你一无所知,但实际上他们已经把你看得清清楚楚的。举个例子,如果你是一位怀孕满3个月的准妈妈,你可能会在家里的信箱中发现一些摇篮和纸尿布的优惠券,此外还有一张割草机的打折券、一张“凭此券购买保龄球鞋免费得一双保龄球袜”的买赠券。对于你来说,你会觉得那几张跟怀孕有关的优惠券与其他垃圾广告一同出现在信箱里纯属偶然。但事实上,商家已经知道你既不打保龄球也不修剪草坪,这些广告只不过是一个幌子,为了掩盖他们知道你怀孕的事实。
脸谱网(Facebook.com)已经成为世界上最有价值的公司之一,但这家公司基本上没有什么实物资产。但在投资者(而非使用者)眼里,脸谱网拥有一个庞大的无形资产:数据。投资者之所以愿意投资脸谱网,并不是因为通过这个网站平台能够让他们与大学时的恋人重新取得联系,而是因为注册用户每一次点击鼠标都能在不经意间泄露他们的信息:住在哪里,去哪里购物,买什么东西,认识什么人以及如何打发空闲时间等。对于想要与初恋重燃旧情的脸谱网注册用户来说,公司对这些信息的收集和分析极有可能会侵犯到他们的隐私。
脸谱网产品副总裁克里斯·考克斯告诉《纽约时报》记者:“信息时代的挑战就是如何处理这些信息。”
说得太到位了。
在公共领域,数据与科技的结合更加无孔不入。世界各地的城市都在公共场合大量安装摄像头,其中有一些摄像头将在不久的将来拥有脸部识别功能。执法部门通过在车辆上配置全球卫星定位设备实现对车辆的跟踪,并详细记录其到过的地方。这是一个监控并预防犯罪的价廉、有效的方法,还是政府滥用科技手段来践踏我们的人身自由?2012年,美国最高法院一致认定,除非得到特殊准许,否则执法部门不得随意在私人车辆里安装跟踪设备。
与此同时,世界各国政府还掌握了大量的DNA数据,并以此作为破案的有力工具。那么,这些DNA数据库里的信息都是哪些人的?所有被判决的罪犯,所有被捕的人(不管他们最后有没有被判处有罪),还是我们中的每一个人?
我们正好站在科技与个人数据的十字路口,不得不提高警惕。假如这些数据还像以前那样静静地躺在政府办公大楼积满灰尘的地下档案室里,一切都还好说;但如今随着公民数据的数字化,在世界上任何角落的任何人都有可能借助互联网看到这些信息,这就是问题的严重性所在。统计学比以往任何时候都更加重要,因为我们现在有了更多机会来充分利用数据,并从中获取有意义的信息。然而统计学公式并不会告诉我们怎样使用数据是合适的,怎样使用是不合适的。数学并不能代替判断。
因此,我想用一组词语联想来结束全书:火、小刀、汽车、脱毛膏。每一样东西都有一个重要的功能,每一样东西都能让我们的生活变得更好,但每一样东西如果被滥用都会造成严重的后果。
现在请你将“统计学”也放到这组词语中去,从今天开始,好好使用数据!
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。