不管你的大数据有多大规模,其中仍可能没有你想要的信息。
许多大数据资源中是没有我们想要的研究数据的,从这个意义上讲,大多数大数据资源是不完整的。这是出于研究以外的目的而创建的数据所共有的一个特征。许多社会科学家已经拥有处理不完整数据的经验了,例如某社会科学家获得了一组现有的调查数据,但其中未包含他要研究的问题。遗憾的是,不完整的问题在大数据中往往更加极端。根据我的经验,大数据通常缺少以下三种对社会研究有用的信息:有关参与者的统计信息、在其他平台上的行为以及使理论构念[1]具有可操作性所需的数据。
在上述三种缺失的信息中,缺失使理论构念具有可操作性所需的数据是最难解决的。而且根据我的经验,这一问题经常会被忽略。粗略地说,理论构念就是社会科学家所研究的抽象概念,而使一个理论构念具有可操作性则意味着想办法用可观测的数据捕获这一构念。遗憾的是,这个听起来简单的过程事实上往往相当困难。试想一下,如果要用科学测验检验“越聪明的人挣钱越多”这一看似简单的说法,那么我们就需要对“智力”进行测量。但什么是智力呢?霍华德·加德纳(Howard Gardner)曾提出,智力实际上有8种不同的形式。那有没有能够精确测量这些智力的程序呢?尽管心理学家在这方面做了大量的工作,但这个问题还是没有明确的答案。
因此,即便是“越聪明的人挣钱越多”这样相对简单的说法,也可能很难用科学测验来对其进行评定,因为要想使理论构念实现数据层面的可操作性是很困难的。其他一些重要却难以实现可操作性的例子包括“规范”、“社会资本”和“民主”。社会科学家将理论构念和数据之间的匹配程度称为构念效度(Cronbach and Meehl 1955)。正如上述几个构念所示,构念效度问题是社会科学家长期以来一直在努力解决的问题。但以我的经验来看,当使用不是为研究而创建的数据时,构念效度问题就会变得更加难以解决(Lazer 2015)。
研究结果通常是用构念来表述的,而利用研究所使用的数据对其进行重新表述则是评估一项研究结果构念效度的快速且有效的方法。例如,假设有两个旨在证明“越聪明的人挣钱越多”的研究:在第一个研究中,研究人员发现,在一项成熟的、测量分析性智力的瑞文推理测验[2](Carpenter,Just,and Shell 1990)中得分高的人,其纳税申报单中填报的个人收入也较高;在第二项研究中,研究人员发现,在推特上使用更长的单词的人更有可能提到奢侈品牌。就这两项研究而言,研究人员均声称他们已经证明了“越聪明的人挣钱越多”。但在第一项研究中,研究人员通过相关数据对理论构念进行了充分的测量,而第二项研究没有。此外,正如上述事例所示,更多的数据并不意味着构念效度问题就能迎刃而解。也就是说,无论第二个研究是基于100万条推文,1000万条推文,还是1万亿条推文,我们对其结果都应持怀疑态度。对不熟悉构念效度的研究人员来说,可以参阅表2.2中使用数字痕迹测量理论构念的研究实例。(www.xing528.com)
尽管反映理论构念的完整数据很难找到,但对其他常见的不完整性问题,比如不完整的人口统计信息和在其他平台上的不完整的行为信息,我们还是有一些常见解决方案的。第一种解决方案是实际搜集自己所需的数据,在第3章谈到调查时我会对此进行介绍。第二种主要方案是进行数据科学家所说的用户属性推断,社会科学家则称之为归属。采取该方案时,研究人员需利用他们所掌握的一些人的信息来推断其他人的属性。第三种可能的解决方案是整合多个数据资源。这一过程被称为记录链接。我最喜欢的有关这一过程的比喻说法出自艾伯特·邓恩(Halbert Dunn),他写出了有史以来第一篇关于记录链接的论文,他在第一段是这样写的:
表2.2 使用数字痕迹测量理论构念的实例
世界上的每一个人都在书写一本生命之书。这本书从我们出生开始写起,直到我们生命的终结,每一页都记录了我们生命中的主要事件。而记录链接就是将这些书页装订成册的过程。
邓恩写这一段时,想象着这本生命之书会记录出生、结婚、离婚和死亡这样的重大生活事件。但其实它所记录的要远超过这些,因此,如果将这些不同的书页(即我们的数字痕迹)整合在一起的话,这本生命之书将是一幅详细的令人难以置信的画像。这本生命之书对研究人员来说是非常好的资源。但正如我在第6章中将描述的那样,它也可以被用于各种不道德的用途,所以也可以被称为毁灭性的数据库(Ohm 2010)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。