首页 理论教育 将道德伦理融入设计:替代、改进和减少

将道德伦理融入设计:替代、改进和减少

时间:2023-07-21 理论教育 版权反馈
【摘要】:你可以通过用非实验研究替代实验、改进处理和减少参与者的数量,使实验更加人道。针对数字实验设计的第二条建议是关于道德伦理的。在“积极减少”组的对照组中,研究人员进行了相同的操作。克雷默和同事发现,就“积极减少”组的参与者来说,他们更新状态中积极词汇的比例下降了,消极词汇的比例则上升了。图4.24情绪感染的证据。

将道德伦理融入设计:替代、改进和减少

你可以通过用非实验研究替代实验、改进处理和减少参与者的数量,使实验更加人道。

针对数字实验设计的第二条建议是关于道德伦理的。正如雷斯蒂沃和范德里杰特针对维基百科谷仓之星的实验所示,降低成本意味着道德伦理将成为研究设计中越来越重要的一部分。除了我在第6章将描述的用来指导人体实验的伦理框架之外,设计数字实验的研究人员还可以参考另一个来源的道德伦理理念:指导动物实验的伦理原则。尤其是罗素(Russell)和伯奇(Burch)在其具有里程碑意义的《人道实验技术原则》(Principles of Humane Experimental Technique)一书中提出的指导动物实验的三个原则:替代、改进和减少。我认为,这三个原则稍做修改后也可以被用来指导人体实验的设计。

·替代:如果可能的话,用侵害性更小的方法来替代实验。

·改进:改进处理,使其尽可能不具危害性。

·减少:尽可能减少实验的参与者。

我首先将通过一个引发伦理争议的在线实地实验来更具体地阐明这三个原则,并向大家展示它们是如何造就更好、更人道的实验设计的。然后,我将描述这三个原则如何让实验设计人员想到具体实用的优化方案。

最具伦理争议的数字实地实验之一是亚当·克雷默(Adam Kramer)、杰米·吉约里(Jamie Guillory)和杰弗里·汉考克(Jeffrey Hancock)开展的一项被称为“情绪感染”的实验。实验是在脸谱网上进行的,出发点是为了解决一些科学和实际问题。当时,脸谱网用户与脸谱网互动的主要方式是信息流,即通过算法控制的来自脸谱网用户好友的状态更新。一些批评脸谱网的人认为,因为信息流中大多是积极的帖子,比如发一下最近的聚会,所以可能会让用户觉得自己的生活似乎不如朋友的精彩,进而感到难过。但也可能恰好相反,也许看到你的朋友玩得开心会让你也感到快乐。为了验证这两个相互矛盾的假设并进一步了解一个人的情绪如何被其朋友的情绪所影响,克雷默和同事开展了一项实验。在这项为期一周的实验中,他们将大约70万名用户分成了4组:一个是“消极减少”组,研究人员会随机屏蔽含有消极词汇(例如“难过”)的帖子,以免其出现在这些人的信息流中;一个是“积极减少”组,研究人员会随机屏蔽含有积极词汇(例如“开心”)的帖子,以免其出现在这些人的信息流中;另外两组是对照组。在“消极减少”组的对照组中,研究人员会以与“消极减少”组相同的屏蔽率来随机屏蔽帖子,但不会考虑帖子是消极的还是积极的。在“积极减少”组的对照组中,研究人员进行了相同的操作。该实验设计表明,适当的对照组并不总是一个不对其进行任何处理的组。也就是说,有时为了进行精确的比较以解答所研究的问题,研究人员需对对照组也实施一定的处理。4个组的用户可以通过信息流以外的其他脸谱网功能看到被屏蔽的其好友的帖子。

克雷默和同事发现,就“积极减少”组的参与者来说,他们更新状态中积极词汇的比例下降了,消极词汇的比例则上升了。而就“消极减少”组的参与者来说,他们更新状态中积极词汇的比例上升了,消极词汇的比例则下降了(图4.24)。但这些处理的效应量是很小的:实验组和对照组在积极词汇和消极词汇上出现差异的概率是千分之一。

图4.24 情绪感染的证据。“消极减少”组的参与者使用的消极词汇较少,积极词汇较多;“积极减少”组的参与者使用的消极词汇较多,积极词汇较少。竖线代表估算的标准误差。改编自Kramer,Guillory,and Hancock(2014),图1。

在探讨该实验引发的道德伦理问题之前,我想用本章前面的一些概念来描述三个科学问题。

首先,我们还不清楚该实验的实际细节与相关理论是如何关联的。换句话说,我们对该实验的构念效度尚有疑问。我们还不清楚积极词汇和消极词汇的数量是否能很好地反映参与者的情绪状态,因为我们不清楚:(1)人们在帖子中使用的词汇是否能很好地反映他们的情绪,(2)研究人员采用的特定的情绪分析技术是否能准确地推断情绪(Beasley and Mason 2015;Panger 2016)。换句话说,词汇可能并不是一个很好的情绪指标,上述特定的情绪分析技术也可能并不是一个很精确的测量方法。

其次,该实验的设计和分析并没有告诉我们谁是受影响最大的(即没有对处理效应的异质性进行分析),也没有告诉我们可能的原理。在该事例中,研究人员有很多关于参与者的信息,但在分析实验时基本上没有考虑这些信息。(www.xing528.com)

最后,该实验中的效应量是很小的:实验组和对照组出现差异的概率大约是千分之一。在他们的论文中,克雷默和同事表示,这样的效应量也是很重要的,因为每天会有数以亿计的人查看他们的信息流。换句话说,他们认为,即使对每个人的影响很小,但对数以亿计的人的影响总和很大。就算你同意他们这个观点,这样的效应量对情绪传播这样一个更为普遍的科学问题是否具有重要意义,我们仍然无从得知(Prentice and Miller 1992)。

除了这些科学问题,克雷默和同事的论文在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)上发表后没几天就引来了研究人员和媒体的强烈抗议(具体争论的观点我将在第6章更详细地描述)。这场争论中提出的问题致使上述院刊罕见地就有关这项实验的道德伦理问题和伦理审查过程的担忧发表了社论(Verma 2014)。

描述完情绪感染这一实验,现在我想说明的是,上述三个原则能为真正的研究带来具体实用的改进方案(无论你个人如何看待这个特定实验的道德伦理问题)。第一个原则是替代:如果可能的话,研究人员应该设法用侵害性、风险性更小的方法来替代实验。例如,研究人员可以尝试利用自然实验,而不是开展随机对照实验。正如第2章所描述的,自然实验是指现实世界中发生的事情刚好大致满足了对处理的随机分配(例如,抽签决定入伍人选)。自然实验的伦理优势在于,研究人员不必实施处理,因为环境会替他们实施。例如,几乎就在克雷默等人开展情绪感染实验的同一时间,科维略(Coviello)和同事发现,人们在下雨天发的帖子中消极词汇会比较多、积极词汇会比较少,因此,通过利用天气的随机变化,他们可以在不进行干预的情况下研究信息流变化的影响,这就好像是天气在替他们开展实验一样,他们的这一实验可被称为情绪感染自然实验。他们的具体步骤有点复杂,但我们现在探讨的是如何用侵害性、风险性更小的方法来替代实验,所以他们的事例告诉我们最重要的一点是,通过利用自然实验,科维略和同事可以在不开展自己的实验的情况下了解情绪传播。

第二个原则是改进:研究人员应该设法改进实验处理,以使其尽可能无害。例如,研究人员可以增加积极或消极的内容,而不是屏蔽积极或消极的内容。增加内容的设计会改变参与者信息流的情绪内容,但也能解决批评者提出的一个顾虑,即实验可能导致参与者错过信息流中的重要信息。在克雷默和同事的设计中,重要信息与不重要信息被屏蔽的概率是一样的。但在增加内容的设计中,被取代的将会是那些不太重要的信息。

第三个原则是减少:研究人员应该设法将实验参与者的数量减少到完成科学目标所需要的最小数目。在模拟实验中,因为参与者的可变成本较高,所以研究人员自然会这么做。但在数字实验中,尤其是零可变成本的实验中,研究人员不会因为实验的规模而面临成本问题,这就有可能导致不必要的大规模实验。

例如,克雷默和同事就应该利用有关参与者的处理前信息,比如处理前的发帖行为,来使他们的分析更加高效。更具体地说,克雷默和同事应该比较实验组中积极词汇的比例变化和对照组中积极词汇的比例变化,而不是比较实验组的积极词汇比例和对照组的积极词汇比例。前者有时被称为混合设计(图4.5),有时也被称为双重差分估计量法。也就是说,研究人员应该计算出每个参与者的变化量(处理后行为—处理前行为),然后比较实验组和对照组参与者的变化量。这种双重差分的方法从统计学角度来讲会更加高效,因为它意味着研究人员可以利用更小的样本量实现相同的置信度

就克雷默和同事的实验而言,因为没有原始数据,所以我们很难确切地知道双重差分估计量法的效率比原来方法的效率具体高出了多少,但可以通过其他相关的实验获得一个大致的概念。邓(Deng)等人报告称,通过采用其中一种双重差分估计量法,他们将三个不同在线实验的估计量的方差减少了约50%。谢(Xie)和奥里塞(Aurisset)也报告了类似的结果。50%的方差缩减意味着如果克雷默和同事采用一种稍微不同的分析方法,那么他们所需的样本量可能就能减少一半。换句话说,稍微改变一下分析方法或许就能减少35万名参与者了。

在这一点上,你可能会想研究人员为什么要在意这35万人在情绪感染实验中是否多余呢?这是因为情绪感染实验的两个特性使我们有必要担忧实验规模过大,许多数字实地实验都具有这两个特征:(1)不确定实验是否会对至少某些参与者产生伤害,(2)参与者不是自愿参与实验的。尽可能缩小具有这些特征的实验的规模似乎是合理的。

要澄清的一点是,上述减小实验规模的要求并不意味着你不应该开展大规模零可变成本的实验。这只是意味着,实验规模刚好能够让你实现科学目标就可以了。确保实验规模合适的一个重要方法是进行功效分析(Cohen 1988)。在模拟时代,研究人员通常会通过功效分析来确保他们的研究规模不会太小(即参与者过少)。但现在,研究人员应该通过功效分析来确保他们的研究规模不会太大(即参与者过多)。

综上所述,替代、改进和减少这三个原则有助于研究人员将道德伦理融入实验设计中。当然,上述每种改善情绪感染实验的方案,其本身也是瑕瑜互见。例如,通过自然实验得来的证据并不总是像通过随机实验得来的那样纯粹,而且增加内容从逻辑上讲可能比屏蔽内容更难以实现。因此,提出这些改善方案并不是为了事后批评其他研究人员的决定,而是为了说明如何在现实情况下应用这三个原则。事实上,在研究设计中,权衡取舍的问题一直都存在,而且在数字时代,这些权衡将越来越涉及道德伦理方面的考虑。稍后在第6章,我将给出一些有助于研究人员理解和探讨这些权衡取舍的原则以及道德伦理框架。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈