大数据是由公司和政府为研究以外的目的而创建和搜集的。因此,如果要利用这些数据进行研究,就需要对其稍做调整。
许多人接触到数字时代社会研究的第一种方式是通过人们通常所说的大数据。尽管这一术语被广泛使用,但人们对大数据到底是什么还没有达成共识。大数据最常见的定义之一主要包含了3个“V”:Volume(大量)、Variety(多样)、Velocity(高速)。粗略地说,大数据就是大量被不断创建的各种类型的数据。一些大数据的倡导者还为这一定义增加了别的词语,例如Veracity(真实性)和Value(价值),而批评者则增加了诸如Vague(模糊)和Vacuous(空洞)这样的词语。但就社会研究这一目的来说,我认为相比于上述几个“V”,以下5个“W”才是更好的出发点:Who(谁)、What(什么)、Where(在哪儿)、When(什么时间)以及Why(为什么)。事实上,我认为大数据资源带来的许多挑战和机会都源于最后这个“W”:Why。
在模拟时代,大多数用于社会研究的数据都是为了做研究而创建的。然而在数字时代,大量数据正在被公司和政府创建,但其不是为了做研究,而是为了提供服务、创造利润以及执行法律等。但富有创造力的人已经意识到,我们可以对公司和政府所创建的数据稍做调整,进而将其用于研究。回想一下第1章中的艺术类比,就像杜尚通过对一个现成品稍做修改而创造了艺术品一样,现在科学家也可以通过对现成数据稍做调整而将其用于研究。
尽管对数据进行再利用无疑有众多机会,但利用那些不是为研究而创建的数据也存在着很多挑战。就以社交媒体(例如推特)以及传统的民意调查(例如综合社会调查)为例。推特的主要目的是通过为用户提供某种服务来获取利润,而综合社会调查则主要是为社会研究(尤其是民意调查)搜集通用数据。尽管这两种数据都可被用来研究民意,但这种目的上的差异意味着它们具有不同的属性。推特的用户规模和更新速度是综合社会调查无法比拟的,但推特没有像综合社会调查那样对用户进行仔细的挑选,也没有努力让数据在一段时间内具有可比性。因为这两种数据资源十分不同,所以也没办法说到底哪个更好。如果你想了解全球人民在一个小时内的情绪状态(例如Golder and Macy 2011),那么推特将是最好的选择。但如果你想了解美国民众态度两级分化的长期变化(例如DiMaggio,Evans,and Bryson 1996),那么综合社会调查将是最好的选择。总的来说,这一章将试图阐明大数据资源更适合被用于哪种类型的研究问题,以及对于哪种研究问题不太理想,而不是试图论证大数据资源要比其他类型的数据更好或更坏。
当想到大数据资源时,许多研究人员会立即将注意力全部放在由公司创建和搜集的在线数据上,例如搜索引擎的日志和社交媒体上的帖子。但这种狭隘的关注范围忽略了另外两个很重要的大数据资源。首先是现实世界中数字设备所产生的越来越多的公司的大数据资源。例如,我在这一章中将提到一个研究,探讨一个员工的工作效率如何受其同伴工作效率的影响(Mas and Moretti 2009),该研究就对超市的结账数据进行了再利用。之后的章节还将介绍一些利用手机通话记录(Bhumenstock,Cadamuro,and On 2015)和电力公司账单数据(Allcott 2015)开展的研究。这些事例表明,公司的大数据资源不仅仅是关于在线行为的。(www.xing528.com)
另外一个被忽略的重要的大数据资源是政府创建的数据。这些数据被研究人员称为政府行政记录,包括税收记录、学校记录以及重要的统计记录(例如出生和死亡登记)等。政府一直在创建该类型的数据,有的记录已经持续了数百年,而社会科学方面也几乎是从第一个社会科学家开始就在利用这些数据。但不同的是,数字化极大地简化了政府对数据的搜集、传输、存储和分析工作。例如,我在这一章中将提到一个利用纽约市政府出租车计量器的数据开展的研究,该研究旨在解决劳动经济学中的一个根本性争论(Farber 2015)。后面的章节还将分别介绍政府搜集的投票记录如何在一项调查(Ansolabehere and Hersh 2012)和一个实验(Bond et al.2012)中被使用。
我认为,将数据稍做调整以用于研究这一想法是从大数据资源中获得有用信息的基础,因此,在更具体地讨论大数据资源的属性(2.3节)以及如何在研究中使用这些资源(2.4节)之前,我想先就这一想法给出两条常规建议。首先,关于我所提出的“发现”数据和“设计”数据之间的差异,这二者的差异很小,但也不是没有。尽管从研究人员的视角来说,大数据资源是被发现的,但它们并不完全就是从天而降的。相反,研究人员发现的大数据资源也是某些人出于某些目的而设计的。因此,鉴于发现的数据也是由某些人所设计的,我通常建议尽量多地了解设计这些数据的人和流程。其次,当你将数据稍做调整以用于研究时,想象一下适用于你要解决的问题的理想数据集应该是什么样的,这通常会非常有帮助,然后将理想的数据集与你正在使用的数据集进行比较。如果数据不是你自己搜集的,那么你拥有的数据和你想要的数据之间可能会有很重要的差别,注意到这些差别将有助于你弄清楚哪些是可以通过现有数据获得的,哪些是无法获得的,同时这也可能透露出你还需要搜集哪些新数据。
在我的经验中,社会科学家和数据科学家倾向于以截然不同的方式看待将数据稍做调整以用于研究这件事。习惯于处理为研究而设计的数据的社会科学家,通常会快速地指出调整后再用于研究的数据的问题,而忽略它的优势。而数据科学家则通常会快速地指出这类数据的优势,并忽略它的劣势。当然,最好的方法就是上述两种态度的结合。也就是说,研究人员需要了解大数据资源的特征,了解它的优点和缺点,然后弄清楚如何从中获得有用的信息。这也是本章剩余部分所要探讨的。在2.3节中,我将介绍大数据资源的10个共同特征。然后在2.4节中我将介绍三种能够很好地处理这些数据的研究方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。