研究人员很难获取公司和政府所持有的数据资源。
2014年5月,美国国家安全局在犹他州的一个小镇开设了一个名字很长的数据中心——情报体系综合性国家计算机安全计划数据中心。然而据报道,这个习惯上被称为犹他数据中心的地方拥有惊人的能力。一份报告称,该数据中心能够存储和处理所有形式的通信信息,包括“私人电子邮件、手机通话和谷歌搜索的完整内容,以及停车收据、旅行路线、书店采购记录和其他‘口袋垃圾’等各种形式的个人数字痕迹”(Bamford 2012)。犹他数据中心存储的大部分信息都是敏感信息,因此在引发担忧之外,它也很好地诠释了为什么有些丰富的数据资源是研究人员难以获取的。更普遍地讲,许多有用的大数据资源都被政府(例如税收数据和教育数据)和公司(例如搜索引擎记录和通话记录元数据)控制和限制。因此,尽管这些数据是存在的,但对社会研究来说是无用的,因为它们很难获取。
根据我的经验,许多大学研究人员都误解了数据难以获取的原因。这些数据难以获取,不是因为公司和政府的人愚蠢、懒惰或冷漠,而是有严格的法律、商业和伦理限制阻碍了数据的获取。例如,一些网站的服务协议只允许员工使用数据或将数据用于改进服务。因此,某些形式的数据共享可能会让公司面临来自客户的法律诉讼。此外,共享数据也可能为公司带来巨大的商业风险。试想一下,如果个人搜索数据意外从谷歌泄露,并被用于某项大学的研究,公众的反应会如何?类似这样的数据外泄,如果严重的话,甚至可能威胁到公司的生存。因此,谷歌和大多数大公司为了规避风险,都不愿与研究人员分享数据。
事实上,几乎所有有能力提供大量数据的人应该都知道阿卜杜勒·乔杜里(Abdur Chowdhury)的故事。2006年,时任AOL(美国在线)研究主管的乔杜里,有意向研究人员公布他认为是匿名的65万名AOL用户的搜索记录。据我所知,乔杜里和AOL的研究人员是出于好意,而且他们认为自己已经对数据进行了“匿名化”处理。但他们错了,这些数据很快被发现并没有研究人员所想的那样安全,而且,《纽约时报》的记者能够很轻松地辨别出数据集中某一个人的身份(Barbaro and Zeller 2006)。这些问题刚被发现,乔杜里就移除了AOL网站上的相关数据,但为时已晚,这些数据已被转载到了其他网站上,在你读这本书时,可能这些数据仍然能被找到。最终,乔杜里被解雇了,AOL的首席技术官也辞职了(Hafner 2006)。正如这个例子所示,公司内部特定人员是有能力促进数据共享的,但他们并不会因此而受益,相反还有可能要承担极其严重的后果。(www.xing528.com)
然而,研究人员有时也能获取普通大众无法获取的数据。一些政府有特定的程序,研究人员可以遵循这些程序,申请对数据的访问权。此外,正如本章后面的例子所示,研究人员有时也能获得对公司数据的访问权。斯坦福大学经济学教授利兰·埃纳维(Liran Einav)等人就曾与易贝(eBay)的一位研究人员合作研究在线拍卖。有关这一合作研究的更多信息,我将在本章后面部分介绍,而我现在提及它是因为它具备我在成功的伙伴关系中所看到的4个要素:研究人员兴趣、研究人员能力、公司兴趣以及公司能力。我见过很多原本可能达成的合作最终以失败告终,其原因就是研究人员或其合作对象(公司或政府)不具备上述某一要素。
即便能与公司建立合作关系或能够访问到受限制的政府数据,你还是会面临一些问题。首先,你可能无法与其他研究人员共享你的数据,这也就意味着其他研究人员将无法验证和扩展你的研究结果。其次,你能提出的问题可能是有限的,因为公司不太可能允许你开展有损其形象的研究。最后,这些合作关系至少会引发有关利益冲突的问题,即人们可能会认为你的研究结果受到了合作关系的影响。所有这些问题都是可以解决的,但重要的是你要认识到,处理并非人人都能访问的数据是既有好处又有坏处的。
综上所述,研究人员在访问某些数据时,会面临来自法律、商业和道德伦理方面的层层限制,很多大数据资源都是他们难以获取的。而且这些限制不会随着技术的进步而消失,因为它们并非技术层面的限制。一些国家的政府已经建立了相关的程序,以便让研究人员能够访问某些数据集,但未从国家和地区层面对具体过程进行统一安排。此外,在某些情况下,研究人员可以通过与公司合作获得数据的访问权,但这也可能给研究人员和公司带来各种各样的问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。