首页 理论教育 代表性推断和覆盖面误差的案例分析

代表性推断和覆盖面误差的案例分析

时间:2023-07-21 理论教育 版权反馈
【摘要】:代表性是关于从受访者到目标总体的推断的。事实却是罗斯福以压倒性优势打败了兰登。目标总体和抽样框总体之间的差异被称为覆盖面误差。收到选票的人中只有24%的人做出了选择,而事实证明,支持兰登的人参与这次调查的可能性更大。图3.2代表性误差。《文学文摘》的民调不仅能被用来介绍代表性的相关知识,还经常被用来告诫研究人员任意抽样的危害。

代表性推断和覆盖面误差的案例分析

代表性是关于从受访者到目标总体的推断的。

我们可以通过《文学文摘》一项旨在预测1936年美国总统选举结果的民意调查(简称“民调”),了解从受访者到更大的目标总体的推断过程中,可能出现的误差。尽管这项民调距离现在已经超过80年了,但今天的研究人员还是能从这次失败中学到很重要的经验教训。

《文学文摘》是一本广受欢迎的大众杂志,从1920年开始进行预测总统选举结果的民意调查。为了进行这些调查,杂志工作人员会将选票寄给许多人,然后统计返回来的选票总数。《文学文摘》自豪地称,他们收到的选票未经“加权、调整或解读”。该类调查让他们正确地预测了1920年、1924年、1928年以及1932年的选举获胜者。1936年正值大萧条时期,《文学文摘》向1000万人寄送了选票,这些人的名字主要来自电话号码簿和汽车登记记录。以下是工作人员对自己方法的描述:

《文学文摘》各项工作平稳推进,旨在以多年经验减少对事实的臆测……这个星期,500名工作人员每天能写超过25万个地址。每天,在车水马龙的纽约第四大道上一个高耸的大房间里,400名工作人员熟练地将印刷好的选票(足够铺满40条街区)放入写好地址的信封里。每小时,在《文学文摘》自己的邮局里,三台铿铿作响的邮资机在为白色的长方形信封加盖戳记并封上信封,熟练的邮政员工将这些信封放入鼓鼓的邮袋中,邮袋经《文学文摘》的卡车被快速送至专门的邮车……一周后,1000万张选票会被陆续返回,上面填有相应的答案,我们会对其进行三次检查核实、五次交叉分类,然后汇总。在计算完最后一个数字并检查无误后,这个国家便能知道4000万选民的选举结果了,根据以往的经验,这一结果与最终的真实结果之差距将在1%以内。(1936年8月22日)

今天任何一位大数据研究人员都能一眼看出《文学文摘》对数量的盲目迷恋。最终,寄出去的1000万张选票,竟然返回了240万张,这一反馈率大概是现代民意调查的1000倍。根据这240万受访者的答案,结论已经很明确了:阿尔夫·兰登(Alf Landon)将打败现任总统富兰克林·罗斯福(Franklin Roosevelt)。事实却是罗斯福以压倒性优势打败了兰登。拥有这么多数据,《文学文摘》怎么会出错呢?现代的抽样理念可以清楚地解释《文学文摘》的错误,并有助于让我们在未来避免同样的错误。

要想清楚地认识抽样,就需要我们思考4组不同的人群(图3.2)。第一组是目标总体(target population),也就是研究人员所确定的有兴趣了解该项目的群体。在上述《文学文摘》的例子中,目标总体就是参加1936年总统选举的选民。(www.xing528.com)

在确定目标总体后,研究人员需要确定一份可供抽样的人员名单。该名单被称为抽样框,名单上的人被称为抽样框总体(frame population)。在理想情况下,目标总体和抽样框总体是完全相同的,但实际情况往往并非如此。例如,在上述《文学文摘》的事例中,抽样框总体就是名字主要源于电话簿和汽车登记记录的1000万人。目标总体和抽样框总体之间的差异被称为覆盖面误差。就其本身而言,覆盖面误差不一定会引发问题,然而,如果抽样框总体中的人与在目标总体中却不在抽样框总体中的人存在系统性的差异,那么覆盖面误差就会导致覆盖面偏差。事实上,这正是《文学文摘》民调中发生的事情。其抽样框总体中的人倾向于支持阿尔夫·兰登,部分程度上是因为他们更富有(在1936年,电话和汽车都是相对比较新和昂贵的)。因此,在《文学文摘》的民调中,覆盖面误差导致了覆盖面偏差。

确定抽样框总体后,研究人员的下一步就是选择抽样总体(sample population),即研究人员试图采访的对象。与抽样框总体相比,如果样本具有不同的特征,那么抽样就产生了抽样误差。但在《文学文摘》的惨败事例中,研究人员实际上并没有进行抽样,因为他们试图联系到抽样框总体中的每一个人,因此也就没有抽样误差。许多研究人员倾向于只关注抽样误差,也就是说,在调查的误差幅度报告中,抽样误差通常是唯一被提及的一类误差,但《文学文摘》惨败的事例提醒我们,我们需要考虑所有类型的误差,无论是随机的还是系统性的。

最后,选择完抽样总体后,研究人员就要试图采访抽样总体中的所有对象了。那些被成功采访的人叫受访者。理想情况下,抽样总体和受访者是完全相同的,在实际情况中却有无回答的现象。也就是说,被选为样本的人有时会不参与调查。如果参与者的答案与未参与者的答案不一样,那么无回答误差就可能造成无回答偏差。无回答偏差是《文学文摘》存在的第二个主要问题。收到选票的人中只有24%的人做出了选择,而事实证明,支持兰登的人参与这次调查的可能性更大。

图3.2 代表性误差。

《文学文摘》的民调不仅能被用来介绍代表性的相关知识,还经常被用来告诫研究人员任意抽样的危害。遗憾的是,我认为许多人从这个故事中吸取的经验教训是错误的。对该故事的寓意最常见的解读是,研究人员从非概率样本(即在选择参与者方面缺乏严格的基于概率的规则)中学不到任何东西。但正如本章后面将讲到的,这一观点并不完全正确。相反,我认为这个故事实际上有两个寓意,这两个寓意无论是在1936年还是今天都同样适用。首先,大量任意搜集而来的数据并不能保证得出好的评估结论。一般而言,拥有大量受访者能降低评估结论的方差,但不一定会降低其偏差。利用大量的数据,研究人员有时会得出有关错误对象的精确评估,他们会错得一塌糊涂(McFarland 2015)。其次,在进行评估时,研究人员需要考虑他们的样本是如何搜集的。换句话说,因为《文学文摘》的民调抽样过程系统性地偏向了一些受访者,所以研究人员需要利用更复杂的评估方法(对另外一些受访者进行加权)来修正上述现象。在本章后面的内容中,我将介绍一个叫事后分层的加权方法,该方法能让你通过任意样本得出好的评估结论。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈