五、概率抽样
1.概率抽样含义
概率抽象是问卷调查中的一个重要环节,对确定调查对象与调查范围有重要作用。概率抽样是以概率理论为依据,通过随机化的机械操作程序取得调查样本的方式。它能避免抽样过程中的人为因素的影响,保证样本的客观性。虽然随机样本一般不会与总体完全一致,但它所依据的是大数定律,而且能计算和控制抽样误差,因此可以正确地说明样本的统计值在多大程度上适合于总体,根据样本调查的结果可以从数量上推断总体,也可在一定程度上说明总体的性质、特征。概率抽样主要分为简单随机抽样、系统抽样、分类抽样、整群抽样、多阶段抽样等类型。现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本。
2.概率抽样的原则、原理
概率抽样的基本原则是:样本量越大,抽样误差就越小,而样本量越大,则成本就越高。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。因此,样本量的设计并不是越大越好,通常要受到经济条件的制约。概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按总体内在结构中所蕴含的各种随机事件的概率来构成样本,使样本成为总体的缩影。
3.几种概率抽样方法
概率抽样包括有简单随机抽样、系统抽样(等距抽样)、分层抽样(类型抽样)和整群抽样等方法。
(1)简单随机抽样
简单随机抽样是一种广为使用的概率抽样方法,是最完全的概率抽样。随机抽样就是总体中每个单位在抽选时有相等的被抽中的机会。在简单随机抽样条件下,抽样概率公式为:抽样概率=样本单位数/总体单位数,例如,如果总体单位数为10000,样本单位数为400,那么抽样概率为4%。简单随机抽样的优点在于,它看起来简单,并且满足概率抽样的一切必要的要求,保证每个总体单位在抽选时都有相等的被抽中的机会。简单随机抽样可以通过电话随机拨号功能完成这个步骤,可以从电脑档案中挑选调查对象。同样,简单随机抽样会遇到“样本可能分布不均匀”以及“没有好的抽样框”等问题。在简单随机抽样过程中常使用的技巧为“抽签法”和“随机表法”。
(2)等距抽样
在定量抽样调查中,等距抽样常常代替简单随机抽样。由于该抽样方法简单实用,所以应用普遍。等距抽样得到的样本几乎与简单随机抽样得到的样本是相同的。等距抽样的基本做法是,将总体中的各单元先按一定的顺序排列、编号,然后决定一个间隔,并在此间隔基础上选择被调查的单位个体。
样本距离可通过下面公式确定:样本距离=总体单位数/样本单位数。(www.xing528.com)
例如,假设你使用本地电话本并确定样本距离为100,那么100个中取1个组成样本。这个公式保证了整个列表的完整性。等距抽样方式随意用一个起点,例如,如果你把一本电话本作为抽样框,必须随意取出一个号码决定从该页开始翻阅。假设从第5页开始,在该页上再另选一个数决定从该行开始。假定选择从第3行开始,这就决定了实际开始的位置。等距抽样方式相对于简单随机抽样方式最主要的优势就是经济性。等距抽样方式比简单随机抽样更为简单,花的时间更少,并且花费也少。使用等距抽样方式最大的缺陷在于总体单位的排列上。一些总体单位数可能包含隐蔽的形态或者是“不合格样本”,调查者可能疏忽,把它们抽选为样本。
(3)分层抽样
定量调查中的分层抽样是一种卓越的概率抽样方式,在调查中经常被使用。分层抽样的具体程序是:把总体各单位分成两个或两个以上的相互独立的完全的组(如男性和女性),从两个或两个以上的组中进行简单随机抽样,样本相互独立。总体各单位按主要标志加以分组,分组的标志与我们关心的总体特征相关。例如,我们正在进行有关啤酒品牌知名度方面的调查,初步判别,在啤酒方面男性的知识与和女性不相同,那么性别应是划分层次的适当标志。如果不以这种方式进行分层抽样,分层抽样就得不到什么效果,花再多时间、精力和物资也是白费。分层抽样与简单随机抽样相比,我们往往选择分层抽样,因为它有显著的潜在统计效果。也就是说,如果我们从相同的总体中抽取两个样本,一个是分层样本,另一个是简单随机抽样样本,那么相对来说,分层样本的误差更小些。另一方面,如果目标是获得一个确定的抽样误差水平,那么更小的分层样本将达到这一目标。在调查实践中,为提高分层样本的精确度实际上要付出一些代价。
通常,正确的分层抽样一般有三个步骤:
首先,辨明突出的(重要的)人口统计特征和分类特征,这些特征与所研究的行为相关。例如,研究某种产品的消费率时,按常理认为男性和女性有不同的平均消费比率。为了把性别作为有意义的分层标志,调查者肯定能够拿出资料证明男性与女性的消费水平明显不同。用这种方式可识别出各种不同的显著特征。调查表明,一般来说,识别出6个重要的显著特征后,再增加显著特征的辨别对于提高样本代表性就没有多大帮助了。
其次,确定在每个层次上总体的比例(如性别已被确定为一个显著的特征,那么总体中男性占多少比例,女性占多少比例呢?)。利用这个比例,可计算出样本中每组(层)应调查的人数。
最后,调查者必须从每层中抽取独立简单随机样本。
(4)整群抽样
以上各种抽样类型全部是按单位抽取的,即按样本单位数,分别一个单位一个单位地抽取。在整群抽样中,样本是一组单位一组单位地抽取。整群抽样有两个关键步骤:第一步是同质总体被分为相互独立的完全的较小子集;第二步是随机抽选子集构成样本。如果调查者在抽中的子集中观察全部单位,我们就有了一级整群样本。如果在抽中的子集中再以概率方式抽取部分单位观察,我们就有了二级整群样本。分层和整群抽样都要将总体分为相互独立的完全子集。它们的区别是,分层抽样的样本是从每个子集中抽取,而整群抽样则是抽取部分子集。地理区域抽样是整群抽样的典型方式。挨门挨户去调查一个特定城市的调查者也许会随机抽选一些区域,较集中地访查一些群体,大量减少访问时间和经费。整群抽样被认为是概率抽样技术,因为它随机抽出群和随机抽出单位。值得注意的是,在整群抽样下,我们假定群中单位与总体一样存在异质性。如果一群中单位的特征非常相似,如果由于共同环境使群内差异小而群与群之间差异大,要解决这个问题可以扩大群数,然后从各群中抽取少量单位数,以保证样本的代表性。
【注释】
(1)本章重点参考了余邦宏等学者的研究成果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。