“随机抽样足以代表总体”这个命题,其实是说,只有把所抽取的个人作为一个“抽象人”(整体的计量单位)来统计的时候,这些人才能够代表总体。反之,如果我们把这些人进行任何一种分类,那么对于其中任何一个分类的统计结果就不再具有代表性了(卢山,2004)。
例如“性别”这个变量,在笔者的随机抽样样本中与在中国总人口中,男女的比例都是大约各占一半。这当然足以代表中国总人口的状况。但是,分别来看,其中的大约50%的男人或者女人,却并不能代表中国所有的男人或者女人,因为笔者并没有把男人与女人分开,单独地对每个性别进行随机抽样。
可是,社会科学里从来也不存在仅仅作为计量单位存在的“抽象人”;社会科学家从来都是把人进行各种分类之后再进行统计的。结果,当笔者千辛万苦地做完随机抽样,追求到一个“总体代表性”之后却发现,不管我们说“男人是什么情况”,还是“女人是什么情况”,其实都是不具有代表性的,而且无论我们讨论哪个社会分层的情况,都是这样的。
那我们为什么还要费劲地进行随机抽样呢?
我们社会科学研究的本质特征不是单变量统计,而是进行相关分析。那么,我们怎么能够认定我们引入分析的那些相关变量中的各个分类也具有代表性呢?例如,我们的统计结果是“农民的性别与是否进城打工存在着相关关系”(男农民进城打工的更多),可是这一发现却既不能代表“男农民”这个总体,也不能代表“进城打工者”这个总体。结果,我们根本就无法论证我们发现的这种相关关系具有任何普适性。
统计学的解决方法是进行分层抽样。在社会科学可操作的意义上,也就是在末端抽样层次(通常是社区),我们应该努力地按照社会学最珍视的“五朵金花”(性别、年龄、文化程度、职业、收入),尽可能多地进行分层抽样,而不是简单随机抽样。(www.xing528.com)
且不谈操作的可能性,关键问题在于,即使是这样分层抽样出来的样本,也仍然只是在“抽象人”的意义上具有代表性,只不过它所代表的是一个分层的总体,而不是更上一级的总体。在分层样本的任何行为或者事实的层次上,我们的调查结果仍然不具有代表性。也就是说,如果我们要调查的问题足够深入,又追求统计结果的代表性,那么我们就必须不断地分层下去,直到我们陷入“把调查目标作为分层抽样的指标”的泥坑为止。
总之,随机抽样其实只是使我们获得了调查地点的地理分布的随机性与该调查地点内的个人分布的随机性。但是,在该调查地点内,我们社会科学最需要的调查样本的各种社会属性的代表性,却基本上无法获得。
因此,社会科学应该择其优而弃其劣。笔者提出一个新的思路,这里暂不做操作方法的展开。
在一个相当小的末级抽样层次(例如数万人口的社区)中,如果仅仅抽取很少的人(例如,有的全国调查只在每个社区抽取10人),我们采用细致的分层比例分配抽样法,而不是随机抽样法,那么我们所损失的只是“抽象人”对末端抽样层次的完全代表性,所获得的却是具有分层属性的“社会人”的可保证数量,同时保留了调查地点的地理分布的随机性。
当然,统计学肯定有无数方法来论证这种抽样方法的“失”,但是社会科学也有充分的理由来看重它的“得”。在这一点上,我们社会科学应该与统计学展开充分的对话,而不是削足适履。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。