大数据资源中的测量对象不太可能改变行为。
社会研究面临的一个挑战是,当知道自己正在被研究人员观察时,人们就会改变自己的行为。社会科学家通常把这一现象称为反应性(Webb et al.1966)。例如,在实验室研究中,人们会比在现场研究中表现得更慷慨,因为在实验室中,他们非常清楚自己正在被观察(Levitt and List 2007a)。许多研究人员看好的大数据的一个方面是,参与者一般不会意识到他们的数据正在被捕获,或者他们对这些数据采集已经很习惯了,所以也不会改变自己的行为。由于参与者不会改变他们的行为,所以许多大数据资源可以被用来研究以前无法精确衡量的行为。例如,带有种族歧视的词汇在搜索引擎记录中是非常普遍的,于是斯蒂芬斯-达维多维茨(Stephens-Davidowitz)就利用这一点衡量了美国不同地区的种族敌意。搜索数据的不反应性和海量性这两个属性使很多通过其他方法(例如调查)难以进行的测量成为可能。
但不反应性并不能确保这些数据就是人们行为或态度的直接反映。例如,在一项基于当面访问的研究中,一位受访者说:“我并不是没有问题,只是没有把它们发在脸谱网上而已。”(Newman et al.2011)换句话说,尽管一些大数据资源是不反应的,但并不一定能避免社会期许误差,即人们倾向于以尽可能好的方式呈现自己而带来的误差。此外,正如我在本章后续部分所描述的,从大数据资源中捕获的行为有时会受到平台所有者目标的影响,我将之称为算法干扰。最后,尽管不反应性对开展研究是有利的,但在未征得参与者同意或在他们不知情的情况下追踪其行为的做法,也会带来一些道德伦理问题,对此我将在第6章进行描述。(www.xing528.com)
以上3个属性——海量性、持续性以及不反应性,一般来说是有利于研究的,但也并非总是如此。接下来,我将介绍大数据资源的另外7个属性——不完整性、难以获取、不具代表性、漂移、算法干扰、脏数据以及敏感性。在开展研究时,这些属性一般来说会引发额外的问题,但也并非总是如此。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。