大数据资源无处不在,但利用它们进行社会研究可能会遇到很多问题。根据我的经验,“天上不会掉馅饼”这类规则也适用于社会研究的数据:如果你不投入大量工作来搜集数据,那么你可能需要投入大量工作去思考和分析数据。
今天的大数据资源往往具有以下10个特征,未来的大数据资源也可能如此。其中有3个特征通常是(但并不总是)有助于研究的:海量性、持续性以及不反应性。而其余7个则通常是(但并不总是)不利于研究的:不完整性、难以获取、不具代表性、漂移、算法干扰、脏数据以及敏感性。其中许多特征之所以会出现,是因为大数据资源并不是为了社会研究而创建的。
基于本章的观点,我认为以下三点最能说明大数据资源在社会研究中的价值。首先,大数据资源能让研究人员验证两个互相矛盾的理论预测的正误,比如法伯的纽约市出租车司机研究。其次,基于大数据资源的临近预测能为决策者提供更好的评估信息,该类研究的一个事例是金斯伯格等人的谷歌流感趋势研究。最后,大数据资源有助于研究人员在不开展实验的情况下进行因果推断,该类研究的事例包括马斯和莫雷蒂针对同侪效应对生产力影响的研究以及埃纳维等人针对易贝上起拍价对拍卖影响的研究。然而,无论是上述哪一种情形,都需要研究人员赋予数据更多东西,例如确定对因果推断很重要的研究定量或两个观点互相矛盾的理论。因此,我认为对大数据资源的作用的最好描述是,它们能够帮助那些可以提出有趣且重要问题的研究人员。
本章结束之前,我认为还有一个问题值得思考,那就是大数据资源可能对数据和理论之间的关系产生重要的影响。目前为止,本章所采用的方法是理论导向的实证研究。但大数据资源也能让研究人员进行实证导向的理论推理。也就是说,通过仔细积累经验事实、实际模式和难解之题,研究人员可以建立新的理论。这一非传统的、在没有理论假设的情况下直接从数据入手建立理论的方法并非是首次被提及,巴尼·格拉泽(Barney Glaser)和安塞尔姆·施特劳斯(Anselm Strauss)在其提倡扎根理论的著作中就对这一方法进行了最有力的阐述。但这种直接从数据入手的方法并没有像数字时代的一些有关研究的文章所宣称的那样意味着“理论的终结”(Anderson 2008)。相反,随着数据环境的变化,我们应该期望数据和理论的关系能重新得到平衡。在过去,数据采集是很昂贵的,因此只搜集那些理论表明最有用的数据是说得通的。但现在,我们有海量的可以免费使用的数据,因此除了搜集最有用的数据以外,尝试直接从现有数据入手也是可以的(Goldberg 2015)。
本章内容表明,研究人员通过观察人类可以了解到很多东西。在接下来的几章中,我将介绍如何通过调整数据采集的方法,通过提问(第3章)、开展实验(第4章),甚至直接选择一部分人参与研究过程(第5章)这些与人们更直接的互动了解更多不同的东西。(www.xing528.com)
【注释】
[1]构念(Constructs)是对某一学科研究领域内的模糊(抽象)要素进行概括或概念化的途径,是旨在探究研究对象的规律性而由科学研究者设想出来的抽象物。——编者注
[2]瑞文推理测验,一种非文字智力测验。该测验以智力的二因素理论为基础,主要测量一般因素中的推理能力,即个体做出理性判断的能力。——编者注
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。