首页 理论教育 扩充型提问:计算社会学

扩充型提问:计算社会学

时间:2023-07-21 理论教育 版权反馈
【摘要】:将调查数据和大数据资源结合起来的另一种方法,我称之为扩充型提问。扩充型提问的一个重要事例是乔舒亚·布卢门斯托克的研究,他想搜集有助于指导贫穷国家发展的数据。所有参与调查的人都获得了经济报酬。图3.14用通话记录训练统计模型的预测精度。该模型对某些特征的预测精度是很高的,例如预测某人是否有收音机的精确度能达到97.6%。换句话说,所有复杂的数据和建模工作只是把预测精确度从97.3%提高到了97.6%。

扩充型提问:计算社会学

扩充型提问会通过一个预测模型将源于少数人的调查数据与源于许多人的一个大数据资源结合起来。

将调查数据和大数据资源结合起来的另一种方法,我称之为扩充型提问。在扩充型提问中,研究人员会通过一个预测模型将少量的调查数据与一个大数据资源结合起来,然后利用结合后的数据得出评估结论,这些评估结论的规模或粒度是只通过调查数据或大数据资源不可能实现的。扩充型提问的一个重要事例是乔舒亚·布卢门斯托克的研究,他想搜集有助于指导贫穷国家发展的数据。在过去,搜集此类数据的研究人员一般只能采取以下两种方法中的一种:抽样调查人口普查。只需要研究人员采访少量人的抽样调查比较灵活、及时且成本相对较低,但因这些调查是基于一个样本的,所以其分辨率通常是有限的。也就是说,通过一项抽样调查,通常很难对特定的地理区域或人口群体做出评估。而人口普查则试图采访每一个人,因此研究人员可以通过人口普查对小的地理区域或人口群体进行评估。但人口普查往往成本高、关注面小(它只包含少量的问题),而且不及时(它按固定的时间表进行,例如每隔10年普查一次)(Kish 1979)。与其勉强接受抽样调查或是人口普查,研究人员还不如设想一下能否将两种方法各自的最佳特征结合起来,能否每天向每一个人提出每一个问题。显然,这种无处不在的、不间断的调查只是一种社会科学幻想。但通过将源于少量人的调查问题与源于许多人的数字痕迹相结合,我们似乎确实可以接近这一幻想。

布卢门斯托克的研究始于他与卢旺达最大的手机供应商的合作,该供应商向其提供了2005—2009年间约150万名用户的匿名记录。这些记录含有每次通话和每条短信的相关信息,例如起始时间、持续时间以及呼叫方和接收方大致的地理位置。在我谈论统计问题之前,值得指出的是,获取数据这第一步对许多研究人员来说可能是最难的步骤之一。正如我在第2章所描述的,大多数大数据资源都是研究人员难以获取的。电话元数据尤其难以获取,因为它们基本上是不可能被“匿名化”的,而且几乎一定会包含参与者认为敏感的信息(Mayer,Mutchler,and Mitchell 2016;Landau 2016)。在布卢门斯托克的研究中,研究人员在保护数据方面很是谨慎,而且有一个第三方(即他们的机构审查委员会)负责监督他们的工作。我将在第6章更详细地探究这些道德伦理问题。

布卢门斯托克感兴趣的是衡量财富状况和幸福感,但通话记录中并没有直接记录这些特性。换句话说,对该研究来说,这些通话记录具有不完整性,这是大数据资源所共有的一个特征,在第2章中我详细介绍过这一点。但通话记录很可能包含一些能间接提供有关财富状况和幸福感的信息内容。鉴于这种可能性,布卢门斯托克想,是否有可能训练一个机器学习模型,该模型能通过通话记录预测某个人在一项调查中会如何作答?如果这是可行的,那么布卢门斯托克就能利用这一模型预测150万名用户的调查答案。

为了创建和训练这样一个模型,布卢门斯托克和来自基加利科学技术研究所(Kigali Institute of Science and Technology)的研究助理随机抽取了约1000名用户。研究人员向参与者解释说明了研究的目的,并就将调查答案与通话记录结合起来征求了他们的同意,然后向他们提了一系列的问题,以衡量其财富状况和幸福感,例如“你有收音机吗?”以及“你有自行车吗?”(部分问题列表参见图3.14)。所有参与调查的人都获得了经济报酬。

接下来,布卢门斯托克采用了机器学习中常见的两步法:特征工程、监督式学习。首先,在特征工程这一步中,布卢门斯托克将通话记录转换成了关于每个受访者的一组特征,数据科学家可能会称这些特征为“特征”,而社会科学家则可能称之为“变量”。例如,布卢门斯托克会计算出每个人的总活跃天数、联系过的人(不同的人)的数量以及通话费等。这一步中至关重要的一点是,好的特征工程需要研究人员了解研究环境。例如,如果区分国内电话和国际电话很重要(我们可能会认为打国际电话的人更富有),那么这一工作就必须在特征工程这一步进行。而对卢旺达知之甚少的研究人员可能就不会考虑这一特征,模型的预测性能就会受到影响。

图3.14 用通话记录训练统计模型的预测精度。改编自Blumenstock(2014),表2。

接下来,在监督式学习这一步中,布卢门斯托克创建了一个模型,根据每个人的特征预测其调查答案。在该步骤中,布卢门斯托克采用了逻辑回归,但其实他也可以采用其他统计或机器学习方法。

那么该模型的效果如何呢?根据从通话记录中提取的特征,布卢门斯托克是否能利用该模型预测用户对诸如“你有收音机吗?”以及“你有自行车吗?”的调查问题的回答吗?为了评估其预测模型的性能,布卢门斯托克采用了交叉验证,该方法在数据科学中很常用,但在社会科学中很少被采用。交叉验证的目的是公平评估一个模型的预测性能,做法是利用不同的子数据集训练并测试该模型。具体来说,布卢门斯托克先将其数据分成了10组,每组包含100人的数据。然后,他用其中9组数据来训练模型,然后用剩余的1组数据来评估该模型的预测性能。他将这一过程重复了10次,每次选1组不同的数据来验证模型的预测性能,而其余9组数据则用于训练模型,最后取平均值。

该模型对某些特征的预测精度是很高的(图3.14),例如预测某人是否有收音机的精确度能达到97.6%。这听起来可能很不错,但将一个复杂的预测模型与一个简单的替代方法进行比较通常是很重要的。在该事例中,一个简单的替代方法就是预测每个人都会给出最常见的回答。例如,97.3%的受访者回答说自己有收音机,因此,如果布卢门斯托克预测每个人都会回答说自己有收音机,那么他的精确度就是97.3%,这与他更复杂的预测模型的表现(97.6%的精确度)竟惊人地相似。换句话说,所有复杂的数据和建模工作只是把预测精确度从97.3%提高到了97.6%。但对其他问题,例如“你有自行车吗?”,预测精确度就从54.4%提高到了67.6%。更概括地说,图3.15表明,对某些特征来说,相比于简单的基线预测(即预测每个人都会给出最常见的回答),布卢门斯托克的模型并没有明显提高精确度,但对其他一些特征来说还是有些改善的。但仅从这些结果来看,你可能会觉得这种方法并不是特别有前景。

图3.15 利用通话记录训练的统计模型的预测精度与简单的基线预测的预测精度的对比。为了避免重叠,有的数值有轻微调整。改编自Blumenstock(2014),表2。(www.xing528.com)

然而,仅仅一年后,布卢门斯托克和两位同事,加布里埃尔·卡达穆罗(Gabriel Cadamuro)和罗伯特·翁(Robert On),就大大改进了研究结果(Blumenstock,Cadamuro,and On 2015),并在《科学》杂志上发表了他们的论文。这一改进主要有两个技术原因:(1)他们采用了更复杂的方法(即在特征工程这一步中采用了新的方法,并创建了更复杂的模型来利用特征预测回答);(2)他们不再试图推断单个调查问题(例如,“你有收音机吗?”)的答案,而是试图推断综合财富指数。这些技术上的改进意味着他们可以合理地利用通话记录预测样本中用户的财富状况。

但预测样本中用户的财富状况并不是他们研究的最终目标,他们的最终目标是将抽样调查和人口普查各自的最佳特征结合起来,从而对发展中国家的贫穷状况进行准确的、高分辨率的评估。为了判断他们是否有能力实现这一目标,布卢门斯托克和同事用他们的模型和数据预测了150万名用户的财富状况。他们还利用通话记录中的位置信息(通话记录中有每次通话时用户离得最近的手机信号塔的位置)评估了每个人大致的居住地(图3.16)。通过将这两项评估结合在一起,布卢门斯托克和同事得出的评估结论,是关于用户财富地理分布的极细粒度(指空间粒度)的。例如,他们能够估算出卢旺达2148个街区中每一个街区的平均财富状况。

那么这些评估结论与该地区的真实贫困水平的符合程度如何呢?在回答这个问题之前,我想强调一个事实,那就是大家有很多理由持怀疑态度。例如,在个体层面上进行的预测,其结果相当参差不齐(图3.17)。此外,也许更重要的一点是,有手机的人与没有手机的人可能会有系统性的差别。因此,布卢门斯托克和同事可能也会受到覆盖面误差的困扰,类似于我之前所描述的1936年《文学文摘》的调查。

为了了解他们评估结论的质量,布卢门斯托克和同事需要将其数据与其他东西进行比较。幸运的是,就在他们进行该项研究的同时,另一组研究人员也正在卢旺达进行一项传统的社会调查。这项调查是广受重视的人口统计健康调查的一部分,拥有大量预算,采用的是高质量的传统方法。因此,人口统计和健康调查的评估结论可以被合理地认为是黄金标准。人们将这两种评估进行比较后发现,它们非常相似(图3.17)。换句话说,通过将少量调查数据与通话记录结合起来,布卢门斯托克和同事得出了与采用黄金标准的方法所得出的评估结论相类似的结论。

图3.16 布卢门斯托克、卡达穆罗以及翁的研究示意图。首先,他们将手机供应商的通话记录转换成了矩阵,其中每个人占一行,每个特征(即变量)占一列。接下来,他们创建了一个监督式学习模型,以通过上述矩阵预测调查答案。然后,他们利用该模型预测150万名用户的调查答案。此外,他们还根据这些用户打电话时的位置评估了150万名用户大致的居住地。在把这两项评估,即财富状况和居住地,结合起来后,其结果与人口统计和健康调查的评估结果很相似,而人口统计和健康调查被认为是黄金标准的传统调查。

图3.17 布卢门斯托克、卡达穆罗以及翁的研究结果。在个体层面上,研究人员能通过某人的通话记录来合理预测其财富状况。基于个体层面的财富状况和居住地的评估所得出的卢旺达30个地区的地区级财富状况评估,与人口统计和健康调查的评估结果很相似,而人口统计和健康调查被认为是黄金标准的传统调查。改编自Blumenstock,Cadamuro,and On(2015),图la和图3c。

持怀疑态度的人可能会认为这些结果是令人失望的。毕竟,对布卢门斯托克和同事的研究的一种解读方式是,利用现有的方法能更可靠地得出他们通过大数据和机器学习所得出的评估结论。但我认为这并不是解读该研究的正确方式,原因有以下两点。首先,相比于现有的方法,布卢门斯托克和同事得出评估结论所采用的方法要快10倍,成本降为1/50(以可变成本计算)。正如我在上文所论述的一样,研究人员忽视成本问题可能会给自己带来麻烦。就拿布卢门斯托克和同事的研究为例,相比于每隔几年开展一次(这是该调查的一个标准)的人口统计和健康调查,布卢门斯托克和同事在成本上的巨大优势意味着他们每个月都可以开展这样的研究,这将为研究人员和决策者带来诸多好处。其次,该研究采取的方法经调整后可以被用于许多不同的研究。该方法仅需要两类资源及两个步骤。这两类资源分别是:(1)广而薄的大数据资源(即该资源包含许多人,但没有你需要的关于每个人的信息);(2)窄而厚的调查数据(即该数据只包含少量人,但其中有你需要的关于这些人的信息)。然后需要用两步把这些资源结合起来。首先,为两个数据资源中的人创建一个机器学习模型,该模型可以利用数字痕迹预测调查答案。然后,用该模型推断上述大数据资源中每个人的调查答案。因此,如果你有一些问题想问很多人,那就可以找一个有关这些人的大数据资源,哪怕是你不感兴趣的大数据资源也行,因为它也许能预测这些人将如何回答你的问题。也就是说,布卢门斯托克和同事最初并不是关心通话记录,他们之所以留意这些通话记录,是因为其可以预测他们真正关心的调查答案。扩充型提问有别于我之前描述过的嵌入式提问,你只需要对大数据资源有非直接的兴趣即可。

综上所述,布卢门斯托克通过采用扩充型提问得出的结论与符合黄金标准的调查评估结论类似。该研究事例也阐明了扩充型提问和传统的调查方法各自存在的利弊。利用扩充型提问进行评估更及时,具有明显的成本优势,且得出的结论粒度更细。但这类扩充型提问目前还没有很强的理论基础。仅凭这一个事例并不能说明该方法何时有效、何时无效,而且使用该方法的研究人员需格外注意因所使用的大数据资源包含某些人而未包含另外一些人而可能导致的偏差。此外,扩充型提问目前还没有好的方法来量化其评估结论的不确定性。幸运的是,扩充型提问与统计学中的三大领域有着很深的关联。这三大领域分别是小区域估计(Rao and Molina 2015)、填补法(Rubin 2004)以及基于模型的事后分层(该领域与我在前面介绍的“P先生”这一方法紧密相关)。鉴于这些很深的关联性,我预计扩充型提问的许多方法论基础都将很快得到增强。

最后,通过对比布卢门斯托克的第一次和第二次尝试,我们还能学到有关数字时代社会研究的一个重要经验:开始并不是结束。也就是说,许多时候,第一次的方法可能并不是最好的,但如果研究人员继续努力,情况就会变得更好。更广泛地说,在评估数字时代社会研究的新方法时,进行以下两项截然不同的评估是很重要的:(1)该方法在当下的效果如何?(2)随着数据概况的改变以及研究人员投入更多的关注在这个问题上,该方法的效果又将如何?尽管研究人员接受过第一类评估的培训(评估一项特定研究的好坏),但第二类评估往往更为重要。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈