首页 理论教育 实验的两个维度:实验室-实地和模拟-数字

实验的两个维度:实验室-实地和模拟-数字

时间:2023-07-21 理论教育 版权反馈
【摘要】:为了评估对有孩子的女性可能存在的偏见,科雷尔和同事开展了两个实验:一个是在实验室,一个是在实地。例如,科雷尔和同事要求参与实验室实验的大学生按不同的维度对应聘者进行评分。科雷尔和同事的两个实验分别处在实验室-实地连续体的两端,在这两端之间,还有各种各样的混合设计,例如将不是学生的参与者带入实验室,或是去现场,但依旧让参与者执行一项特殊的任务。

实验的两个维度:实验室-实地和模拟-数字

实验室实验能控制实验条件,实地实验能反映真实情况,数字实地实验则能在大规模范围内满足上述两点。

实验分为许多不同的类型和规模。在过去,研究人员发现,实验室实验和实地实验是一个实验连续体的两端,介于这两者之间组织实验是有帮助的。而现在,模拟实验和数字实验又是另一个维度的实验连续体的两端,因此研究人员还应介于这两者之间组织实验。这个二维设计空间有助于大家理解不同方法的优缺点,并能突出机会最大的领域(图4.1)。

组织实验的其中一个维度是实验室-实地。社会科学的许多实验都是实验室实验,为了获得学分,大学生会在实验室中开展一些奇特的实验。心理学研究大都采取这类实验,因为它能让研究人员创造出高度可控的实验环境,进而精确地隔离并测试有关社会行为的特定理论。然而,对某些问题来说,根据这些不具备很好代表性的参与者在如此特殊的环境下因并不常见的任务而表现出来的行为得出有关人类行为的肯定结论,会让人觉得哪里有些奇怪。这些担忧使研究人员开始选择实地实验。实地实验既有随机对照实验的有力设计,也有更具代表性的参与者,同时是在更自然的环境下开展一些更常见的任务。

图4.1 实验设计空间示意图。在过去,实验的类型集中在实验室-实地这一维度。现在,又出现了许多模拟-数字这一维度的实验类型。在本章,我将通过4个实验来阐明该二维设计空间图。在我看来,存在最大机会的领域是数字实地实验。

虽然有些人认为实验室实验和实地实验只能取其一,但其实最好还是把它们看作互补的,它们各自有不同的优点和缺点。例如,科雷尔(Correll)、贝纳德(Benard)和派克(Paik)就同时利用实验室实验和实地实验来试图找出“母职惩罚”的原因。在美国,有孩子的女性的收入要低于没孩子的女性,即便是能力相似、工作相似也会出现这种现象。对于这一现象有许多可能的解释,其中一个是雇主对有孩子的女性存有偏见。有趣的是,对有孩子的男性来说,情况似乎恰恰相反:他们往往会比没有孩子的同等男性挣的更多。为了评估对有孩子的女性可能存在的偏见,科雷尔和同事开展了两个实验:一个是在实验室,一个是在实地。

首先,在实验室实验中,他们告诉都是大学生的参与者说,一家公司正在为其新成立的市场部招聘负责人,想让学生在招聘过程中给予协助,具体来说就是查看应聘者的简历,然后从诸如智力、热情、对工作的投入等方面对应聘者进行评分。此外,学生还会被问到是否推荐聘用相应的应聘者,以及建议的起薪是多少。然而,学生不知道的是,这些简历是专门制作的,内容基本相似,只有一点不同,即有些会暗示该应聘者是位母亲(如参加了家长教师协会),有些则不会。科雷尔和同事发现,学生不太可能推荐是母亲的应聘者,就算推荐了,建议的起薪也会较低。此外,经过对学生的评级信息和聘用相关的决定进行统计分析,科雷尔和同事发现,那些身为母亲的应聘者之所以处于劣势很大程度上是因为她们在能力和工作投入方面的得分较低。因此,该实验室实验让科雷尔和同事得以对一个因果效应进行测量,并为该效应找到了一个可能的解释。

当然,人们可能会对根据几百名大学生的决定就得出有关美国整个劳动力市场的结论的做法持怀疑态度,因为这些大学生可能从未做过全职工作,更别说招聘人了。因此,科雷尔和同事还开展了实地实验作为补充。他们按照几百个招聘广告的信息依次投递了假的求职信和简历,这些简历和给大学生的简历相似,有些暗示应聘者是位母亲,有些则没有。科雷尔和同事发现,有孩子的女性被电话通知面试的概率要小于同等资质却没有孩子的女性。换句话说,按正常程序查看这些简历并做出后续决定的真正雇主的表现和上述大学生的表现很相像。那他们是否是由于同样的原因而做出了类似的决定呢?遗憾的是,我们并不知道。研究人员没办法要求雇主对应聘者进行评分或是解释他们自己的决定。

总的来说,上述两项实验让我们对实验室实验和实地实验有了许多的认识。在实验室实验中,参与者做决定时所处的环境对研究人员来说几乎是完全可控的。例如,在科雷尔和同事的实验室实验中,他们能够确保大学生在安静的环境中阅读所有简历,而在他们的实地实验中,有些简历雇主可能都没看。此外,因为在实验室中的参与者知道他们正在被研究,所以研究人员通常能搜集到额外的信息,这些信息有助于解释参与者为什么做出这样的决定。例如,科雷尔和同事要求参与实验室实验的大学生按不同的维度对应聘者进行评分。这类数据可以帮助研究人员了解参与者区别对待简历背后的机制。

另一方面,我刚才将其描述为优点的这些特征有时也会被看作缺点。更喜欢实地实验的研究人员认为,实验室实验中参与者的行为可能会因为意识到自己正在被别人研究而发生很大的变化。例如,在实验室实验中,参与者可能已经猜到了研究的目的,进而改变他们的行为,以免显得自己有偏见。此外,更喜欢实地实验的研究人员可能会认为,参与者只有在完全没有干扰因素的实验室环境中才会注意到简历之间的细微差别,也就是说实验室实验高估了母亲这一身份对实际招聘决定的影响。最后,许多实地实验的支持者批判了实验室实验对特殊参与者的依赖,这些特殊参与者主要来自西方、文化水平高,是工业化、富裕和民主的国家的学生(Henrich,Heine,and Norenzayan 2010a)。科雷尔和同事的两个实验分别处在实验室-实地连续体的两端,在这两端之间,还有各种各样的混合设计,例如将不是学生的参与者带入实验室,或是去现场,但依旧让参与者执行一项特殊的任务。

除了过去的实验室-实地维度,数字时代意味着研究人员现在有了第二个设计实验的主要维度:模拟-数字。正如在第一个维度上有纯实验室实验、纯实地实验以及介于两者之间的各种混合实验一样,在第二个维度上也有纯模拟实验、纯数字实验以及介于两者之间的各种混合实验。要给出第二个维度的正式定义是很难的,但有一个有用的工作定义,即纯数字实验是利用数字基础设施招募参与者、随机分组、实施处理并测量结果的实验。例如,雷斯蒂沃和范德里杰特针对谷仓之星和维基百科的研究采用的就是一个纯数字实验,因为他们的这4个步骤都是通过数字系统完成的。同样,纯模拟实验就是这4个步骤都不会使用数字基础设施的实验。心理学中的许多经典实验都是纯模拟实验。在这两个极端之间有同时使用模拟系统和数字系统的半数字实验。(www.xing528.com)

有些人一想到数字实验就会想到在线实验。这是不恰当的,因为开展数字实验的机会不是仅存在于网上。在真实世界中,研究人员通过利用数字设备实施处理或测量结果也是可以开展半数字实验的。例如,研究人员可以利用智能手机实施处理或在建筑环境中使用传感器测量结果。事实上,正如本章后面将描述的,研究人员在针对850万户家庭的能源消耗的实验中已经利用家用电表测量实验结果了(Allcott 2015)。随着数字设备越来越融入人们的生活,传感器也开始出现在建筑环境中,在真实世界开展半数字实验的机会将大大增加。换句话说,数字实验不仅仅是指在线实验。

数字系统为实验室-实地连续体上的所有实验都带来了新的可能性。例如,在纯实验室实验中,研究人员可以利用数字系统更精细地测量参与者的行为,其中一个事例是利用眼球追踪设备对参与者眼睛的注视点位置进行精确连续的测量。数字时代还使在线开展类似实验室的实验成为可能。例如,大量研究人员已开始通过机器人MTurk为在线实验招募参与者了(图4.2)。机器人MTurk连通了有任务需要完成的“雇主”和希望通过完成这些任务来挣钱的“工人”。但不同于传统劳动力市场的是,这些任务往往只需要几分钟就能被完成,而且雇主和工人之间的所有互动都是在线进行的。机器人MTurk通过提供经济报酬来让人们完成那些他们不愿免费做的任务,这一点效仿了传统的实验室实验,因此它自然就会适合某些特定类型的实验。从本质上讲,机器人MTurk创建了管理参与者的基础设施(招募人员和给予经济报酬),研究人员也通过该基础设施获得了一个随时可用的参与者库。

图4.2 利用机器人MTurk上的数据发表的论文。机器人MTurk和其他在线劳动力市场为研究人员招募实验参与者提供了一种便利的方法。改编自Bohanon(2016)。

数字系统为类似实地的实验创造了更多的可能性。具体而言,它们使研究人员能将实验室实验的严格控制和过程数据与实地实验更加多样化的参与者和更自然的实验环境结合起来。此外,数字实地实验还使得在模拟实验中很难实现的三点成为可能。

首先,尽管大多数模拟实验室实验和模拟实地实验都有数百名参与者,但数字实地实验可以拥有数百万名参与者。这一规模上的变化是因为有些数字实验能以零可变成本产生数据。也就是说,一旦研究人员完成了一个实验的基础设施构建,那么再增加参与者的数量通常是不会增加成本的。将参与者的数量增加100倍或更多不仅仅是数量上的变化,更是质量上的变化,因为这样能让研究人员从实验中了解到不同的东西(例如处理效应的异质性),以及进行完全不同的实验设计(例如大型群组实验)。这一点是非常重要的,在本章结尾部分提供关于创建数字实验的建议时,我会再回到这一话题。

其次,大多数模拟实验室实验和模拟实地实验的研究人员都会觉得他们的参与者是难以区分的,而数字实地实验的研究人员在研究的设计和分析阶段通常都会参考有关参与者的背景信息。该背景信息被称为预处理信息,在数字实验中通常都是可以获取的,因为这些实验都是在不间断运行的测量系统上进行的(参见第2章)。例如,同样是关于参与者的预处理信息,采用数字实地实验的脸谱网研究人员拥有的信息量要比采用模拟实地实验的大学研究人员拥有的多得多。预处理信息使研究人员能够进行更加高效的实验设计,例如划分区组(Higgins,Sävje,and Sekhon 2016)和有针对性地招募参与者(Eckles,Kizilcec,and Bakshy 2016),还能让他们进行更有见地的分析,例如评估处理效应的异质性(Athey and Imbens 2016a)和进行协方差调整以提高精确度(Bloniarz et al.2016)。

第三,许多模拟实验室实验和模拟实地实验只能在相对压缩的时间内实施处理并测量结果,而一些数字实地实验则可以实现更长的时间跨度。例如,雷斯蒂沃和范德里杰特的实验就对结果进行了长达90天的测量(每天都会测量),而本章后面将提到的实验之一(Ferraro,Miranda,and Price 2011)则基本在零成本的情况下对结果进行了长达三年的追踪。利用不间断运行的测量系统(更多有关不间断运行的测量系统的内容可参见第2章)开展实验,是最有可能具备这三点的,即规模、预处理信息以及纵向处理和结果数据。

尽管数字实地实验带来了很多可能性,但模拟实验室实验和模拟实地实验的一些缺点它也有。例如,实验不能被用来研究过去,它只能用来评估可操控的处理产生的效果。此外,尽管实验对指导政策的制定毫无疑问是有帮助的,但它所能提供的精确指导也有一定的局限,因为存在诸如环境依赖、合规问题和平衡效应(Banerjee and Duflo 2009;Deaton 2010)等复杂化因素。数字实地实验也放大了由实地实验引发的道德伦理问题,我将在本章后面和第6章讨论这个话题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈