分布式数据采集是可能的,并且在未来它可能会涉及技术和被动参与。
正如观鸟数据库所示,分布式数据采集可以被用于科学研究。此外,照片城的例子表明,与抽样和数据质量相关的问题是有解决的可能性的。分布式数据采集如何被用于社会研究呢?其中一个例子来自苏珊·沃特金斯(Susan Watkins)和同事针对马拉维日志项目(Malawi Journals Project)的研究(Watkins and Swidler 2009;Kaler,Watkins,and Angotti 2015)。在这个项目中,22个当地居民(被称为“记者”)用对话日志详细记录了他们偶然听到的普通人在日常生活中有关艾滋病的对话。在项目开始的时候,马拉维大约有15%的成年人感染了艾滋病病毒(Bello,Chipeta,and Aberle-Grasse 2006)。由于“记者”是当地居民,所以能够听到沃特金斯和她的西方研究合作者无法听到的对话(我将在对设计大规模协作项目给予建议时,讨论其中的道德伦理问题)。马拉维日志项目的数据让研究人员得到一些重要的发现。例如,在项目开始之前,许多外界人士认为撒哈拉以南的非洲地区的人们是不谈论艾滋病的,但对话日志表明事实并非如此:“记者”在葬礼、酒吧和教堂等各种场合无意间听到了数百段有关这一话题的对话。此外,这些对话的性质有助于研究人员更好地了解使用安全套所面临的一些阻力,以及人们在日常生活中对使用安全套的讨论与公共卫生信息中对使用安全套规定的不一致性(Tavory and Swidler 2009)。
当然,和观鸟数据库的数据一样,马拉维日志项目的数据也不是完美的,沃特金斯和同事对这一问题进行了详细的探讨。例如,该项目记录的对话并不是所有可能对话的随机样本,它们只是对有关艾滋病的对话的不完全统计。就数据质量而言,研究人员相信他们的“记者”都是很可靠的,日志内和日志间的一致性就能证明这一点。也就是说,因为他们在一个足够小的地方安排了足够多的“记者”,而且这些“记者”关注的都是同一个主题,所以可以利用冗余来评估和确保数据质量。例如,一个名为斯特拉的性工作者在4个不同的“记者”日志中出现了好多次(Watkins and Swidler 2009)。为了进一步增强大家的直觉感受,表5.3还列出了社会研究中分布式数据采集项目的其他示例。
表5.3 社会研究中分布式数据采集项目的例子(www.xing528.com)
本节所述的所有例子都涉及主动参与:“记者”记录了他们所听到的对话,观鸟者上传了他们的观鸟报告,玩家上传了他们的照片。但是如果参与是自动的且不需要任何特定的技能或时间来提交呢?这将通过“参与式感知”或“以人为中心的感知”来实现。例如麻省理工学院的科学家所开展的坑洞侦测项目(Pothole Patrol),在该项目中,他们分别给波士顿地区的7辆出租车安装了内置GPS的加速计(Eriksson et al.2008)。因为开车经过坑洞时会留下一个明显的加速计信号,所以将内置GPS的加速计安装在行驶的出租车内便能绘制出波士顿的道路坑洞地图。当然,出租车并不是随机选择路线的,但如果有足够多的出租车,它们的覆盖范围可能就足以提供有关波士顿大部分道路的坑洞信息。依赖于技术的被动系统的第二个好处是,它们降低了数据贡献过程的技能要求,也就是说,给观鸟数据库贡献数据是需要技能的(因为你需要具备正确识别鸟类物种的能力),而给坑洞侦测贡献数据则无须特殊的技能。
展望未来,我预计许多分布式数据采集项目都将开始利用手机这一世界各地已经有数十亿人在使用的工具。首先,手机上装有大量对测量来说很重要的传感器,例如传声器、相机、GPS设备和时钟。其次,手机还支持第三方应用程序,使研究人员能够对底层数据采集协议进行一定的控制。最后,手机可以连接到互联网,这使得它们能将搜集到的数据转移。尽管有许多技术上的挑战,从不精确的传感器到有限的电池寿命,但随着技术的发展,这些问题应该会随着时间的推移而减少。而与隐私和道德伦理相关的问题可能会变得更加复杂。我在提供有关大规模协作项目的设计建议时,会再回到道德伦理这一话题上来。
在分布式数据采集项目中,志愿者贡献了有关世界的数据。该方法已被成功地使用,在未来的使用过程中,研究人员可能必须要解决抽样和数据质量问题。幸运的是,照片城和坑洞侦测这样的现有项目为解决这些问题提供了思路。技术的发展使得无须技能的被动参与成为可能,而随着越来越多的项目开始利用这些技术,分布式数据采集项目的规模应该会显著增加,进而使研究人员能够搜集到过去无法搜集到的数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。