首页 理论教育 项目评估与反现实:如何优化你的决策

项目评估与反现实:如何优化你的决策

时间:2023-05-25 理论教育 版权反馈
【摘要】:欢迎来到项目评估阶段,在这里我们会探索与测量某些介入手段的因果作用,从新型的癌症药物到就业解决政策,从高中的辍学率到派更多的警察上街巡逻。在难以弄清原因和结果的时候,项目评估提供了一系列用于隔离治疗效果的工具。具体来说,华盛顿特区由于其首都的独特政治地位,自然成为恐怖分子的主要袭击目标,因此在发出“高度戒备”预警的日子里,城里的某些区域会增派巡逻警力。

项目评估与反现实:如何优化你的决策

Naked Statistics

哈佛大学世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竟是常春藤大学的教育优势,还是他们本身就很出色?

出色的研究者之所以出色,并不是因为他们不用纸笔就可以在脑中进行复杂的计算,也不是因为他们总能在电视智力竞赛中赢得更多的奖品(虽然这些本领也很重要)。这些改变了我们的知识世界的研究者之所以能够得到我们的尊敬和崇拜,主要是因为他们作为个人或团队,总是能够找到有创意的方式来控制变量,使得对照实验能够进行下去。在对某项疗法或某种介入手段进行测量时,我们需要制定一些类似于标尺的东西来提供参照。上哈佛大学会给你的人生带来什么影响?要回答这个问题,我们就必须知道你去哈佛大学读书以后发生了什么,如果没去哈佛大学读书又发生了什么。显然,这两个数据我们是无法兼得的,但聪明的研究者就能找到有创意的方式来测量某种疗法或介入手段(比如去哈佛大学念书)的影响,也就是在现实与“反现实”(在介入手段缺失的前提下所发生的结果)之间搭建比较的桥梁

为了让大家能够更好地理解,我们先来回答一个看上去相对简单的问题:派出大量警察上街巡逻能降低犯罪率吗?这是一个非常具有社会意义的问题,因为犯罪加剧了社会运行的成本,给普通人的生活带来了巨大损失。假如更多站岗或巡逻的警察通过自身的震慑力以及抓捕坏人减少了犯罪,那么这项在增加警力方面的投入就可谓是收到了很好的效果。但是,如果这项举措对减少犯罪没有或几乎没有任何作用,那么政府就应该考虑如何更好地利用这笔资金(比如投入到打击犯罪的高科技手段的运用上,增加监控摄像头的安装数量等)。

更多的警察与犯罪率的因果关系是什么?这样一个看似简单的问题其实暗藏玄机,让人无从下手。到了本书的这一章,作为读者的你一定也意识到了我们不能简单地用人均警察数这一个变量来解释犯罪率。苏黎世不是洛杉矶,就算是位于美国境内的大城市,它们彼此之间也存在难以忽略的差异,洛杉矶、纽约、休斯敦、迈阿密、底特律以及芝加哥都是有着各自特征的城市,它们的人口组成不同,打击犯罪所面临的挑战也各不相同。

我们通常的做法是试图列出一个回归方程式,对这些差异进行控制,但这次就算是多元回归分析也无能为力了。假如我们试图用人均警察数量作为解释变量(同时控制其他因素)来解释犯罪率(因变量),就存在一个非常严重的因果倒置问题。尽管从理论上来说,我们有确凿的证据证明派更多的警察上街巡逻能够降低犯罪率,但也完全有可能是高犯罪率“导致”了更多的警察不得不上街巡逻。我们可以轻松地在犯罪率和警察数量之间找到一个显著,但也极具误导作用的正相关关系:拥有最多警察的地方也是犯罪问题最严重的地方。当然,拥有最多医生的地方常常也是病人最为密集的地方,但并不是这些医生导致人们生病的,他们只不过是到了那些最需要医生的地方而已(与此同时,病人们也会聚集到这些能够提供优质医疗服务的地方)。在佛罗里达州有大量的肿瘤专家和心脏病专家,如果将他们赶到其他州去治疗病人,佛罗里达州的退休人口会因此变得更加健康吗?显然不会。

欢迎来到项目评估阶段,在这里我们会探索与测量某些介入手段的因果作用,从新型的癌症药物到就业解决政策,从高中的辍学率到派更多的警察上街巡逻。所有这些我们所关心的介入手段都可以称为“治疗”,虽然这个词更多的是出现在统计学语境里而非日常口语中。治疗可以是其表面的含义,即某种医学干预,也可以表示上大学、出狱后参加就业培训等。关键在于将某个因素的效果分离出来,理想的情景是,将除了是否接受过“治疗”以外其他方面情况完全相同的两组人员放在一起进行比较。

在难以弄清原因和结果的时候,项目评估提供了一系列用于隔离治疗效果的工具。回到刚才警察和犯罪率的问题上,让我们来看看宾夕法尼亚大学乔纳森·克里克和乔治·梅森大学的亚历山大·塔巴洛克是如何解决这个问题的。他们的研究策略是借助恐怖袭击预警系统。具体来说,华盛顿特区由于其首都的独特政治地位,自然成为恐怖分子的主要袭击目标,因此在发出“高度戒备”预警的日子里,城里的某些区域会增派巡逻警力。假设街头犯罪和恐怖威胁之间没有相关性,那么在华盛顿特区增加警力就与传统的犯罪率之间不存在相关性,也就是所谓的“外生变量”。这两位研究人员最有价值的贡献就在于发现了一个自然实验:恐怖袭击“高度戒备”预警会给传统犯罪带来什么影响?

回答是:恐怖袭击预警级别为橙色时(高度警戒、更多警察上街)的犯罪率要比黄色时(警戒级别略低,没有增加额外的执法巡逻)低约7%。两位研究员还发现,在高度警戒的日子里,那些警力增派最多的警区的犯罪率下降的幅度是最大的(这是因为这些警区是白宫、国会大厦和国家广场的所在地)。一个重要的启示就是,我们只需要开动脑筋,就能够回答棘手但很重要的社会问题。下面就来介绍一些隔离“治疗”效果最常用的方法。

随机控制实验。安排实验组和对照组的一个最直接的方式就是—可能说出来有些多余—创造一个实验组和一个对照组。在使用这种方式时会遇到两大挑战。第一个挑战是,在很多时候是没有办法拿人做实验的,而且这一限制恐怕在短期内都无法解决。因此,只有当我们有理由认为治疗效果可能会给人带来积极作用时,才能以人作为对象进行对照实验。但这种情况少之又少(例如,人们关心的更多是药物试验或高中辍学率),因此我们就需要接着学习其他策略。

第二个挑战是,人作为实验对象要比实验室里的小白鼠变化得更多。治疗效果会因为实验组和对照组在其他方面的差异而变得异常复杂,而你的实验对象中难免会有个子高的、个子矮的、生病的、健康的、男的、女的、罪犯、酗酒者、投资银行家等。我们如何才能保证这些不同的特性不会影响到实验结果?好消息是:人生中难得有几次机会能够像这次用最少的劳动换来最优的结果!这里所指的创造实验组和对照组的最佳方法就是将研究对象随机分配到两个组里。随机性的好处就在于,与实验无关的变量一般会在两个小组里实现平均分配,既包括那些显而易见的特性如性别、种族、年龄和教育,也包括其他难以察觉但可以干扰实验结果的特性。

设想一下,假如我们的样本中包含1 000名女性,那么当我们将这个样本随机分成两组时,最有可能出现的结果是每个组中的女性数量为500名。当然,我们无法保证每次都这么准确,但概率又一次地站在了我们这边,某一组的女性数量大大超出另外一组的概率并不高(同理可知,某一组具有某种特性的个体大大超出另一组的概率也不大)。例如,在一个数量为1 000人的样本中,女性占1/2,那么有超过450位女性同时被分配到同一组的概率还不足1/100。由此可见,样本数量越大,随机分配的作用就越明显,实验组和对照组的相似性也越强。

医学试验就是典型的随机控制实验。理想的情况是“双盲”的临床试验,这意味着无论是病人还是医生都不知道哪一组是治疗组,哪一组是对照组。但如果治疗里包含了手术(心脏外科医生当然知道要给哪些病人做搭桥手术),那“双盲”显然是不可能了。但即使要做手术,病人依然可以被蒙在鼓里,因为就算进了手术室,他们也不知道自己是否接受了心脏搭桥。我最欣赏的研究之一是一份有关某种缓解膝盖疼痛的手术评估报告,治疗组的病人接受了膝盖手术,而对照组病人则接受了一次“冒充手术”,医生只在这组病人的膝盖部位划了3道极小的口子,“假装在给他们动手术”。最后的结果是,真正的手术在缓解膝盖疼痛方面并没有比“冒充手术”有效。

我们可以用随机试验来测试一些有趣的现象。例如,陌生人的祈祷是否可以加快病人的术后恢复?人们对于宗教的认识和理解或许千差万别,但《美国心脏期刊》主办了一次控制实验,观察做过心脏搭桥手术的病人是否会因为有一大群陌生人为他们的健康和快速恢复祈祷而减轻术后并发症的严重程度。一共有1 800名病人和来自全美国3个宗教团体的人士参与其中。所有病人均接受了心脏搭桥手术并被分为3组:第一组没有人为他们祈祷;第二组有人为他们祈祷,而且病人自身也知道;第三组也有人为他们祈祷,但研究人员只告诉这组病人,有可能有陌生人为他们祈祷,也有可能没有(这样就相当于控制了祈祷的安慰作用)。与此同时,来自宗教团体的人士会为某些指定的病人祈祷,祈祷时如何念病人的名字也有要求,祈祷词的范围也有规定,必须要包含“愿某某手术成功、健康恢复、没有并发症”。

结果如何?祈祷会成为美国摇摇欲坠的医疗体系的“救命稻草”吗?恐怕没那么简单。经过30天的观察,研究人员并没有在得到祈祷的病人和没得到祈祷的病人之间发现任何术后恢复上的不同。但是,也有人批评这项研究遗漏了一个潜在的变量:来自于其他渠道的祈祷。《纽约时报》总结道,“专家称这项研究无法克服一个最大的障碍,即每一个人收到的来自未知渠道的祈祷—朋友、家人、全世界各地每天为生病和处于弥留之际的人所进行的祈祷。”

在人身上做实验可能会遭到逮捕,也有可能让你坐上国际刑事法庭的被告席,对此你应该心里有数。但是在社会科学领域,以人作为研究对象进行随机控制实验依然存在空间。大名鼎鼎且影响深远的田纳西州STAR项目就是其中之一,其实验目的就是观察小班教学对学生学习的促进效果。班级大小和学习之间的关系极为重要,全世界的国家都在积极寻求提高教学水平的途径。假如其他情况都不变,小班教学能够促进更加有效率的学习,那么整个社会就应该在教师的培养和上岗方面加大投入来实现小班教学。但反过来,由于培养教师的成本高昂,假如小班教学的学生之所以考试表现好是因为其他方面的因素,而跟班级大小无关,则我们就应该停止小班教学的推广,而把有限的教学经费投入到其他方面。

出人意料的是,班级大小和学生成绩之间的关系异常复杂。一般来说,能够开设小班教学的学校拥有的资源也更多,这些学校的学生和老师与大班教学的学校存在差别。具体到学校内部,小班教学的出现原因也各不相同。校长可能会让成绩垫底的学生组成小班一起上课,从而导致小班教学与学生成绩之间的负相关关系。或者经验丰富的教师可能会选择去教小班,这样的话,小班教学的好处就可能不是因为学生少老师教得更精心,而是因为选择教小班的老师水平普遍较高。

田纳西州STAR项目始于1985年,针对小班教学进行了控制实验。(拉玛·亚历山大时任田纳西州州长,后被美国前总统老布什任命为教育部部长)。在幼儿园教育阶段,来自于79个不同学校的孩子们被随机分到小班(13~17个学生)、常规班(22~25个学生,老师和助教均为常规水平),教师也同样被随机分配到不同的班级中去。按照实验安排,学生将会在其被分配的班级中学习一整年,但不断变化的现实总是在侵蚀实验的随机性:一些学生中途才加入实验,而一些学生中途就离开了;一些学生因为违反纪律被安排到了其他班级,还有一些家长四处求情终于将自己的孩子转班到了小班,诸如此类。

至今,STAR项目依然是测试小班教学效果唯一的随机实验,其结论无论是在统计学意义还是社会意义方面都是非凡的。总体上看,小班学生在统考中的表现要比常规班级学生高出0.15个标准差,小班里黑人学生的进步更是达到了两倍之多。但坏消息是,STAR项目实验共花费约1 200万美元,有关祈祷对术后恢复的效果的研究也花掉了240万美元,最精致的研究与其他任何精致的事物一样,都有一个共同点,那就是价格不菲。

自然实验。并不是所有人都有能力随随便便投资几百万美元来运行一个大型随机实验。一个更为经济的替代方案是寻找到一个自然实验,当某个事件自然而然地发生时,恰好营造出一个接近于随机、对照的实验环境。本章一开始举的那个有关华盛顿特区警察的案例就是一个自然实验。生活有时候出于偶然而创造了一个实验组和一个对照组,在这个时候,研究人员应该主动出击,对眼前的现象进行分析并得出结论。如果要大家将教育和寿命放在一起联想,那么我们会对这一对看似不相关实则纵横交错的变量作何评价?受教育程度高的人往往活得更久,这个结论在控制了其他如收入、能享受到的医疗资源等因素后依然存在。《纽约时报》报道:“无论是哪个国家的研究人员,一个他们达成共识的与长寿相关的社会因素就是教育。一个人受教育程度的高低与寿命长短的相关性比种族和收入因素都要显著。”但至少到目前为止,这还只是一个相关关系。在其他情况都相同的前提下,更多的教育是否就能够带来更健康的身体?如果你把教育看作一种“治疗”,那么接受更多的“治疗(教育)”是否就能保证你活得更久?

这是一个看似不可能得到回答的问题,因为选择接受教育的人与不希望读更多书的人肯定在某些方面是不一样的。高中学历本科学历的人之间的差别绝不仅限于大学4年的教育,在那些选择继续求学的人当中,极有可能存在某些他们所共有的除了教育以外的隐藏特性,从而使得这些人更加长寿。假如这是真的,那么让那些原本没想过继续念书的人上大学;对延长他们的寿命并不会有帮助。健康状况的改善不能归功于提高的教育程度,而是来自于那类选择提高自身教育程度的人所共有的特质。

我们不能用随机实验来解决这一难题,因为这会让某些实验对象在不情愿的状态下过早地离开校园(如果跟一个人说:你不能去上大学,因为你在对照组。想想就觉得残忍)。测试教育对寿命的因果作用的唯一可行的办法就是,借助某些让不想深造的人继续留在学校的自然实验得出结论,至少这在道德上是可以被接受的,因为我们预测会看到一个积极正面的治疗效果。但是,我们还是不能强迫别人留在学校,这太不符合美国的“自由”精神了。

可理想往往照不进现实。美国的每一个州都制定了相关法律来保证最低受教育年限,但在历史上,这些法律都曾发生过变化。像这类非研究对象本人所能决定的影响受教育程度的外部变化正是研究人员梦寐以求的。哥伦比亚大学研究生奥德丽安娜·莱拉斯–姆耐发现,美国不同的州在不同时期对各自的最低受教育年限进行过调整,并由此认为这是一个具有研究潜力的课题。她通过翻阅大量史料和人口普查数据,对这些州的义务教育法律中有关最低受教育年限的条款变化以及相对应的居民寿命变化进行了记录。但她依然面临着一个实验方法上的挑战:即使某一个州的居民在最低受教育年限提升之后活得更久,我们也不能将寿命的延长归功于学校教育的增加。这是因为人的平均寿命从总体上看一直在增加,无论对州法律进行何种调整,生于20世纪90年代的人就是活得比生于19世纪50年代的人久。

但莱拉斯–姆耐还有一个天然的对照组:那些没有对最低受教育年限进行调整的州。她的研究接近于一个大型的实验室实验:按照法律,伊利诺伊州的居民不得不在学校接受7年的教育,而他们的邻居—印第安纳州的居民只需要完成6年的学业就可以选择离开学校了。它与实验室实验唯一的区别就在于,对照组的形成完全是因为一个历史巧合,而这恰恰是“自然实验”的应有之义。

那结果是什么呢?伊利诺伊州年龄在35周岁及以上的成年人,就因为比印第安纳州的同龄人多上了一年学,他们的预期寿命要比后者多出一年半。莱拉斯–姆耐的研究结论在其他国家的研究中也得到了证实,义务教育年限的差异导致了类似的自然实验。随之而来的就是一些质疑,我们至今也没搞明白多上学可以活得更久背后的原理到底是什么。(www.xing528.com)

非对等对照实验。有些时候研究治疗效果最佳且可行的方式,并非完全随机地分配实验组和对照组。当环境不允许我们进行随机分配的时候,我们当然希望最终的实验组和对照组能够大体相似,不对结论的准确性产生影响。好消息是,我们有一个实验组,一个对照组。坏消息是,任何非随机分配都会产生偏见,至少是有存在偏见的可能性。就算你认为你的分组毫无破绽,但或许在实验组和对照组之间还有一些难以察觉的差异,正是这些差异影响了小组成员的分配和组成,从而产生跟现实有偏差的结论,这就是我们所说的“非对等对照”。

一个非对等对照组依然可以成为非常有用的工具。让我们回过头来思考一下本章开头提出的那个问题:进入一所顶尖大学学习真的会给人的一生带来巨大的优势吗?哈佛、普林斯顿、达特茅斯等名牌大学毕业的学生确实非常出色,他们的工资更高,生活也更加精致和丰富多彩,相比之下那些毕业于一般院校的学生就过得惨淡多了。(PayScale网站于2008年曾进行过一项调查,发现工作10~20年的达特茅斯大学毕业生的工资中位数为13.4万美元,是所有本科院校中最高的;普林斯顿大学位居第二,工资中位数为13.1万美元)。我希望大家在这个时候应该能意识到,这些令人脸红心跳的数字其实跟达特茅斯或普林斯顿大学的教育价值毫无关系。进入达特茅斯和普林斯顿大学的学生在高中毕业申请学校时就已经非常出色了,这也是他们能够被这些大学录取的原因。无论他们是否接受过大学教育,都有可能成为生活中的赢家。

我们所不知道的是,接受像哈佛或耶鲁大学这类顶尖大学的精英教育会产生怎样的效果?从这些名牌大学毕业出来的人之所以能够成功,到底是因为他们当初在跨入校门时就已经才华出众,还是因为这些大学通过精选优秀人才、培养他们的竞争力而使得他们的“附加值”增加,又或者两者都有?

我们还是不能通过随机实验的方法来回答这个问题。很少有高中毕业生愿意被随机分配到一所大学就读,哈佛和达特茅斯大学肯定也不愿意接收随机分配给它们的学生。研究似乎陷入了僵局,到底怎么样才能检验大学教育的效果呢?开动脑筋就能找到出路!两位经济学家斯塔西·戴尔和阿兰·克鲁格发现,其实有很多学生在高中毕业时会同时申请多所大学,通过对这一事实的“挖掘”,研究出现了转机。一些学生被名牌大学录取之后便高高兴兴地去报到了,而有一些学生在收到名牌大学的录取通知书后,经过再三考虑,还是去了普通大学或学院深造。于是现在我们就有了一个实验组(进入名牌大学学习的同学)和一个非对等对照组(凭才华和实力足以进入名牌大学却选择去竞争没那么激烈的高校学习)。

戴尔和克鲁格对两个组学生的纵向数据进行了分析。虽然这不是一个苹果对苹果的完美比较,而且收入只不过是人生成就的一部分,但他们的发现应该能够舒缓高中生及其父母的紧张情绪。毕业于名牌大学的人在收入方面并没有超过实力相当,但选择就读一般大学的人,唯一的例外就是出生于低收入家庭的人,他们从名牌院校毕业后的收入会有明显的增长优势。戴尔和克鲁格的方法有效地将实验效果(在名牌大学读4年书)从选择效果(最有才华的学生都被名牌大学挑走了)中剥离了出来。阿兰·克鲁格在《纽约时报》上撰文指出,“相比起毕业证书上的学校名字,正确认识自己的兴趣、抱负和能力更能成就人的一生”,这其实也间接回答了本章升头所提出的那个问题。

差分类差分实验。观察原因和结果的一个最佳方式就是放手去做,然后看看会发生什么,因为这就是婴儿和小孩(有时候也包括成年人)认识世界的途径。我的小孩很快就发现,如果他们在厨房乱扔食物(原因),家里的小狗就会兴高采烈地追着食物跑(结果)。当然,同样的观察方式也可以帮我们认识生活中的其他现象。假如美国政府推出了减税政策,经济就会跟着好转,那么减税政策一定是经济的助推剂。

然而,这一方式存在着一个巨大的陷阱:生活可比在厨房扔食物复杂多了。的确,政府的减税政策或许正好在某个时间点出台,但在同一时期可能还有其他“介入”因素在发挥作用:越来越多的女性进入大学学习,互联网以及其他科技创新正在提升美国工人的生产效率,中国的人民币价值被低估,芝加哥小熊棒球队总经理被解雇,等等。无论减税政策出台后发生了什么事情,都不能只归功或归咎于减税政策本身。任何“前与后”类的分析均面临着一个挑战,那就是仅凭一件事情紧随另一件事情的发生,并不能推断两件事情之间存在因果关系

“差分类差分”法可以通过两个步骤来明确某个介入因素的效果。首先,我们对某个群体接受某项介入因素或治疗之前和之后的数据进行比较,例如推广促进就业政策之前和之后某个县的失业率变化情况。其次,我们将这些数据与另一个没有推出就业政策的同类县同期的失业率情况进行比较。

重要的是,用于分析的两个对象除了是否有介入因素,其他方面的情况基本上都相似;因此,两个对象的观察结果若存在任何显著差异,就应该被认为是所评估的项目或政策的效果。举个例子,假设伊利诺伊州的一个县为了应对高失业率,推出了一个就业培训项目,但在接下来的两年时间里,失业率依然呈上升走势,这是不是就意味着就业培训项目失败了?谁能告诉我们答案?

图14–1 就业培训项目对A县失业率的影响

也有可能存在其他宏观经济因素的作用,如经济的持续不景气等。在“差分类差分”法的指导下,我们对同期两个县的失业率变化情况进行比较,其中一个县推广了就业培训项目,另外一个县并没有推广,除此之外两个县在其他方面都必须保持一致:相同的工业构成、相似的人口结构等。那么,推广了就业培训项目的县在失业率数据上的变化相比起另一个没有推广该项目的县,呈现了一幅什么光景呢?通过比较两个县相同时间段内的失业率变化,我们就能理性地推断出就业培训项目的效果了。这就是“差分类差分”,前一个差分表示项目推广前后的失业率变化,后一个差分指的是两个县同期的失业率变化差异。另一个没有推广就业培训项目的县在研究过程中扮演的是对照组的角色,有利于我们更好地理解项目实施前后的数据变化,因为对照组会受到跟实验组一样的宏观经济的作用。最初我们认为就业培训项目一无是处(因为在项目实施之后失业率变得更高了),但是对照组为我们展示了更加糟糕的就业情况,因此通过综合比较和分析,就业培训项目的正面作用就显现出来了。

图14–2 就业培训项目对A县失业率的影响(以B县作为参照物)

不连续分析实验。实验组和对照组还存在一种设置方式,就是将那些刚好符合介入或治疗条件的对象,以及以毫厘之差错失治疗机会的对象进行比较。那些刚好超过或略微不足规定条件(如考试分数或最低家庭收入等)的个人,其实在许多重要方面与实验组里的个人相差无几,而一组对象接受治疗、另一组对象不接受治疗的人为划分其实本身就是非常任意的。因此,比较这两类对象可以为我们提供有关介入或治疗效果的有益参考。

假设某个学区要求各个学校利用暑假的时间为成绩不理想的学生开设补习班,主管教育的领导想要知道暑期补习班项目是否具有长期推广的价值。当然,如果只是简单地比较参加补习班的学生和不参加补习班的学生,结果将会是毫无意义的。那些学生之所以会出现在暑期补习班里就是因为他们的成绩不好,就算暑期补习班的效果立竿见影,这些学生还是难以在考试中超过班上其他不需要参加补习班的同学。我们真正关心的是,这些学生在参加完补习班之后的成绩与参加补习班之前相比是不是提高了。是的,我们可以组织一些控制对照实验来将成绩不理想的学生随机分配到暑期补习班组或“闲置在家”组,但这可能会剥夺一些想要寻求上进的学生提高成绩的机会。

所以,我们的实验组和对照组应该来自那些正好在班上成绩居中的同学,有一些学生刚好被老师安排到补习班,有一些学生差一点儿就失去了自由自在的暑假时光。设想一下:那些在期中考试中成绩不及格的学生肯定与考试及格的学生是不一样的,但一个分数为59分(不及格)的同学与一个分数刚好为60分(通过考试)的同学呢?如果那些在期中考试中成绩不及格的学生必须参加补习班,那么一个合理且有意义的实验组和对照组就应该在那些差一点儿就及格的学生(参加补习班)和差一点儿就不及格的学生(不需要参加补习班)中产生,这两组学生的期末成绩将会是我们关注的重点。

判处犯罪的青少年监禁,是否可以预防他们今后再次犯罪?这个问题我们也可以用不连续分析法来解决。显而易见,这类分析不能简单地比较坐牢的与量刑较轻的青少年罪犯的累犯率,因为被判坐牢的青少年肯定是因为犯下了比其他同龄人更加严重的错误才受此惩罚。我们更不能用随机分配刑罚的方式来设置实验组和对照组(除非你下次闯了红灯,为了免除刑罚而愿意冒25年监禁的风险)。伦敦大学研究员兰迪·加尔马森曾在美国华盛顿州开展了一项关于青少年犯罪的调查,试图弄清严厉的刑罚与青少年今后的犯罪行为之间是否存在某种相关性。具体来说,她比较了那些刚好够得上判处入狱与刚好逃过“牢狱之灾”(通常只需要罚款或保释)的两群青少年的累犯率。

华盛顿州的司法体系专门设计了一个坐标轴来为每一位犯错误的青少年定刑。X轴表示的是他们以前犯过的错,例如一次重罪就记1分,一次轻罪就记1/4分,全部加起来就是X轴上的读数。与此同时,Y轴表示的是当前所犯罪行的严厉程度,级别从E(最不严重)一直到A+(最为严重)。那么,最后的定刑就是根据他们以前和现在犯错的严重程度在坐标轴上体现的位置。假如一个人之前所有的错误加起来为2分,这次又犯了一个级别为B的重罪,那么他将在青少年监狱待上15~36个月;假如一个人过去所积累的错误只有1分,这次又犯了同样的罪,根据坐标轴的显示,他将不会被送入监狱。正是这种刑罚的不连续性激发了研究人员的灵感,加尔马森比较了正好够得上坐牢和正好免去牢狱刑罚的两群青少年罪犯,她在论文中解释道:“假如两个人都犯了级别为C+的罪,其中一个人之前的累计犯罪分数为2.75,另一个人的累积犯罪分数为3,那么只有后者才会被判处坐牢。”

从研究的角度考虑,这两个人几乎完全相同,除了有一个人要去坐牢。但从判决书下来的那一天起,他们两人的行为就进入了完全不同的演变轨道。被判处坐牢的青少年出狱后再次犯罪的概率会显著降低。

无论在医学、经济、商业、司法还是其他任何领域,我们总是在关心治疗或介入手段是不是真的起了作用。但是,因果关系是一根难啃的骨头,我们有时候甚至连明显得不能再明显的原因和结果都无法确定。为了了解某种介入手段或治疗真正的效果,我们需要看到“反现实—事实的背面”,即假如没有介入手段或治疗会发生什么。但是在许多时候,“事实的背面”却没有那么容易甚至不可能被发现。举个例子:入侵伊拉克让美国变得更加安全了吗?

这个问题在学术上只有唯一的答案:我们永远也不知道。原因就是,我们不知道也无法知道假如美国没有入侵伊拉克会发生什么。的确,美国没有在伊拉克发现大规模杀伤性武器,但谁能保证美国哪一天若真的按兵不动,萨达姆晚上在洗澡的时候会不会灵机一动从其他国家买一枚氢弹回来?那之后又会发生什么,谁能知晓?

当然,完全有可能在美国按兵不动的那天晚上,萨达姆一边准备洗澡一边在头脑中想着从哪里买氢弹的时候,脚下一滑,后脑勺磕在了大理石浴缸上一命呜呼了。如果真的是那样,那美国就不用花费那么大的代价来除掉萨达姆了。

对于任何一个项目评估来说,其目的都是为评价治疗或介入手段的效果提供某种“反现实”。在随机控制实验中,对照组就是“反现实”;但当对照实验不具有可行性或有违道德时,我们就需要寻求其他方式来模拟“反现实”。对这个世界的探索在很多时候就依赖于寻找“反现实”的聪明才智。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈