不具代表性的数据不利于样本外的泛化,但对样本内的对比是很有用的。
一些社会科学家习惯于处理从明确的总体(例如某个国家的所有成年人)中抽取的随机样本数据。这类数据被称作代表性数据,因为这些样本能够代表总体的属性。许多研究人员都认为代表性数据很有价值,对他们中的一些人来说,代表性数据就是科学严谨性的代名词,而不具代表性的数据则是杂乱的代名词。在最极端的情况下,一些对不具代表性的数据持怀疑态度的人似乎认为,从这些数据中学不到任何东西。如果这是真的,那么这将严重限制我们从大数据资源中可以学到的东西,因为许多大数据资源都不具代表性。幸运的是,这些怀疑者只是部分正确。不具代表性的数据对有些研究目标来说显然是不适用的,但对其他一些研究目标来说可能非常有用。
让我们通过一个经典的科学研究,即约翰·斯诺(John Snow)对1853—1854年伦敦霍乱暴发的研究,来阐明这一区别。当时,许多医生都认为霍乱是由瘴气引起的,但斯诺认为霍乱是一种传染病,它可能通过被病人排泄物污染的饮用水来传播。为了验证这一想法,斯诺对比了由两家不同的公司——兰姆博斯(Lambeth)以及萨瑟克-沃克斯霍尔(Southwark & Vauxhall),供水的家庭的霍乱发病率,我们现在把这种实验称作自然实验。这两家公司分别为社会经济地位等相似的家庭供水,但它们有一个重要的区别:兰姆博斯于1849年,即疫情开始的前几年,从伦敦的主要污水排放处向上游移动了它的进水管道,而萨瑟克-沃克斯霍尔则依旧把进水管道置于污水排放的下游。斯诺在比较由这两家公司供水的家庭的霍乱死亡率时发现,饮用由萨瑟克-沃克斯霍尔提供的被排泄物污染的水的用户,其死于霍乱的可能性是由兰姆博斯供水的用户的10倍。尽管这一结果不是基于能够代表所有伦敦人口的样本所得出的,但它为斯诺有关霍乱起因的说法提供了强有力的科学依据。
然而,如果要回答另外一个也很重要的问题——在疫情暴发期间,伦敦的霍乱患病率是多少,上述两家公司的数据就不再适用了,我们需要的是一个能代表全伦敦人口的代表性样本。
正如斯诺的例子所表明的,不具代表性的数据对有些科学问题来说是非常有效的,但对其他一些科学问题不太适用。区分这两种问题的一个粗略的办法是,有些问题是关于样本内比较的,而有些则是关于样本外泛化的。这一区别可以通过另外一个流行病学的经典研究案例来进一步阐明。这项研究就是英国医生研究(British Doctors Study),它在证明吸烟能导致癌症方面发挥了重要的作用。在这项研究中,理查德·多尔(Richard Doll)和布拉德福德·希尔(A.Bradford Hill)对约25000名男性医生进行了多年的追踪,并根据研究开始时他们吸烟的数量比较其晚年的健康状况。多尔和希尔发现了一个很强的“暴露-反应关系”:抽烟越多的人,死于肺癌的可能性就越大。当然,根据这组男性医生的情况估算所有英国人的肺癌患病率显然是不明智的,但样本内的比较能为证明吸烟致癌提供证据。
鉴于我已经阐明了样本内比较和样本外泛化的区别,接下来便是两个需要注意的地方。首先,肯定会产生这样的问题:在上述英国男性医生的样本中成立的某一关系,在由英国女性医生、英国男性工人、德国女性工人或其他许多群体所构成的样本中,适用程度如何?这种问题很有趣,也很重要,但它们与从样本到总体的泛化程度的问题不同。例如,你可能会认为,在英国男性医生中发现的吸烟与癌症之间的关系在其他群体中可能也是类似的。但你的这一推断并非来自英国男性医生可被看作任何人群的随机样本;相反,它来自对吸烟和癌症之间的联系机制的理解。因此,从样本到抽取样本的目标总体的泛化基本上是一个统计问题,但有关在一个群体中所发现的规律到另一个群体的可移植性的问题则基本上不属于统计问题(Pearl and Bareinboim 2014;Pearl 2015)。就这一点而言,持怀疑态度的人可能会说,大多数的社会规律在不同群体间的可移植性可能都要低于吸烟和癌症之间关系的可移植性。这个观点我是同意的。那么我们应该期望这些规律具有多大的可移植性呢?这最终还是一个取决于理论和证据的科学问题。这些规律不应被自动假定为可移植的,但也不应被假定为不可移植的。你如果关注过围绕研究人员通过研究本科生能对人类行为有多少了解的争论(Sears 1986,Henrich,Heine,and Norenzayan 2010b),就会对这些有点抽象的关于可移植性的问题感到熟悉。然而,尽管有这些争论存在,你也不能说研究人员通过研究本科生了解不到任何东西。(www.xing528.com)
第二个需要注意的问题是,大多数拥有不具代表性数据的研究人员并不会像斯诺以及多尔和希尔那样细心研究数据。因此,我将通过安德拉尼克·图玛斯严(Andranik Tumasjan)和同事针对2009年的德国联邦议会大选开展的研究,说明研究人员在利用不具代表性的数据进行样本外泛化时可能出现的错误。分析了10万多条推文后,图玛斯严和同事发现,提及某一政党的推文比例与该政党在议会选举中的得票比例是相匹配的(图2.2)。换句话说,基本免费的推特数据似乎可以取代传统的民意调查,传统的民意调查往往比较昂贵,因为它注重搜集的是代表性数据。
考虑到你可能很了解推特,估计你会立即对这个结果表示怀疑。首先,2009年使用推特的德国人并不能算是德国选民的随机样本。其次,一些政党的支持者可能会比其他政党的支持者更经常地发表有关政治的推文。因此,当最终结果是所有你能想象到的偏差都莫名其妙地相互抵消了,而推特的数据竟能直接反映德国选民的意愿时,这似乎令人感到震惊。图玛斯严等人的研究发现令人难以置信。安德烈亚斯·容赫尔(Andreas Jungherr)、帕斯卡尔·于尔根斯(Pascal Jürgens)以及哈拉尔德·舍恩(Harald Schoen)在后续的一篇论文中指出,图玛斯严等人的分析并未包含在推特上出现率最高的政党:盗版党。这是一个反对政府监管网络的小党。如果将盗版党纳入分析范围的话,政党在推特上的出现率与最终的选举结果就大相径庭了。正如这个例子所示,使用不具代表性的大数据资源进行样本外泛化可能会产生很大的错误。此外还应注意的是,分析了10万多条推文这一事实基本上是无关紧要的,因为大量不具代表性的数据依然是不具代表性的,我在第3章谈论调查时将继续这一话题。
图2.2政党在推特中的出现率似乎可以预测2009年德国大选的最终结果(Tumasjan et al.2010),但需将出现率最高的盗版党排除在外(Jungherr,Jürgens,and Schoen 2012)。有关支持将盗版党排除在外的论点可参见Tumasjan et al.(2012)。上图改编自Tumasjan et al.(2010)的表4以及Jungherr,Jürgens,and Schoen(2012)的表2。
综上所述,许多大数据资源都不是从明确的总体中抽取的具有代表性的样本。对那些需要将研究结果从样本泛化到抽取样本的目标总体上的研究来说,这无疑是一个严重的问题。但对需要进行样本内比较的研究来说,不具代表性的数据又可以是非常有效的,只要研究人员清楚他们的样本特征,并能为其研究结果的可移植性提供相应的理论或实验证据即可。事实上,我希望大数据资源能让研究人员在许多不具代表性的群体中进行更多的样本内比较,我的猜测是,与基于一个随机样本而得出的单一结论相比,基于多个不同群体所得出的多个结论更能促进社会研究的发展。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。