生物统计的最大特点是用样本特征值推测总体参数,因此对于一个试验或调查首先是从若干单位组成的总体中,用随机抽样的方法,抽取部分样本来进行调查、试验,从而用所得到的数据来推断总体数据。动物科学中常用的随机抽样分为单纯随机抽样、系统抽样、分层抽样、整群抽样和多阶段抽样5 种。
随机抽样的SAS 程序语句说明如下:
OUT:指定输出结果的SAS 数据集名,用来保存抽样输出的结果;
METHOD:指定抽样方法,其中SRS 为单纯随机抽样、SYS 为系统抽样等;
SAMPSIZE:指定需要抽取的样本容量;
REP:指定可以重复抽样的次数;
SAMPRATE:指定抽样的比例;
SEED:指定产生随机数字的初始数,缺省是0 或负值;
NOPRINT:指定不对输出结果进行打印;
ID:指定数据集中所需要包含的变量指标。
(一)单纯随机抽样
按照等概率、随机的原则,直接从含有N 个个体的总体中抽取样本量为n 的个体组成的样本(N>n)。单纯随机抽样分为置返抽样和非置返抽样两种。
例2.1 某种羊场的30 只无角陶赛特种羊的基本情况(编号、性别、圈号、羊只评分)见表2.2,从该总体中随机抽取6 只种羊作为研究对象进行科学试验。其单纯随机抽样的SAS程序如图2.1 所示。
表2.2 30 只种羊基本情况表

续表


图2.1 单纯随机抽样SAS 程序
SAS 输出结果如下:
结果显示分为两部分,①抽样基本信息总结:抽样方法为单纯随机抽样,抽样的原始数据库为EXAMPLE,所需抽取的样本量为6,抽样概率为0.2。
②随机抽取的样本所组成的数据集:采用非重复简单随机抽样,抽取的样本ID 为102、160、88、56、36、53。若试验需要对一个样本进行多次重复抽样(置返抽样),只需要将METHOD 选项设定为METHOD=URS 即可,具体如图2.2 所示。

图2.2 单纯随机抽样SAS 程序运行结果
(二)系统抽样
系统抽样又称为机械抽样或等距抽样,是指对总体的单位进行排序,然后计算出抽样距离,再按照这一固定的抽样距离抽取样本。以例2.1 数据为例,采用系统抽样在SURVEYSELECT 过程步骤中,只需将METHOD 选项设定为SYS 即可,通过CONTROL 语句设定某个变量作为抽样距离参考变量,即抽样之前按照CONTROL 变量对原始样本进行排序,然后按照规定的样本量确定抽样距离,随机选取第1 个样本并进行系统抽样。其系统抽样的SAS 程序如如图2.3 所示。

图2.3 系统抽样SAS 程序
SAS 输出结果如下:
结果显示分为两部分,①样本基本信息总结:抽样方法为系统抽样,抽样的原始数据库为EXAMPLE,控制变量socst(以羊只评分作为系统分类的依据,同时这里可以将ID 等不同的指标作为控制变量,即系统分类依据),所需抽取的样本量为6,抽样概率为0.2。
②随机抽取的样本所组成的数据集:先对样本按照羊只评分进行排序,然后按照固定的间隔取样,组成新的样本。抽取的样本ID 为108、121、136、53、160、182,如图2.4 所示。

图2.4 系统抽样SAS 程序运行结果
(三)分层抽样
将总体划分为若干个同质层,再在各层内随机抽样或机械抽样,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。分层抽样尽量利用事先掌握的信息,并充分考虑了保持样本结构和总体结构的一致性,这对提高样本的代表性是很重要的。当总体是由差异明显的几部分组成时,往往选择分层抽样的方法。
分层抽样,实际上就是先对总体进行分层,然后在各层中进行简单随机抽样或系统抽样,从而得到所需样本。此抽样方法的SAS 程序,在SURVEYSELECT 过程步骤中只需加上STRATA 选项(指定分层变量)即可。以例2.1 进行讲解,按照羊只性别进行分层,采用分层抽样法从该总体中随机抽样,每层随机抽取50%的羊作为研究对象进行试验。其分层抽样的SAS 程序如图2.5 所示。

图2.5 分层抽样SAS 程序
SAS 输出结果如下:
结果显示分为5 部分,①按性别进行分组的样本统计量:样本数、均数、标准差、最小值和最大值。母羊有13 只,公羊有17 只。
②抽样基本信息总结,层内抽样方法为简单随机抽样,抽样的演示数据库为EXAMPLE,分层变量为GENDER,所需要抽取的样本量为16,抽样概率为0.50。
③由随机抽取的样本所组成的数据集,先对样本按照GENDER 变量进行分层,然后各层分别抽取50%的样本组成新的数据集。此题中,母羊抽取7 只,ID 号分别为147、102、177、135、171、121、132;公羊抽取9 只,ID 号分别为18、50、57、88、144、47、36、26、112。(https://www.xing528.com)
④母羊组的样本统计量:样本量、均数、标准差、最小值和最大值,随机抽取了7 只母羊作为新样本。
⑤公羊组的样本统计量:样本量、均数、标准差、最小值和最大值,随机抽取了9 只公羊作为新样本。根据试验研究需要,有时不一定是等比例地抽取各层的样本,本例中,用户只需要在PRCO SURVEYSELECT 过程中编写为“PRCO SURVEYSELECT DATA=EXAMPLE METHOD=SRS REP=1 n=(4 8)SEED=12345 OUT=SHEEP;”的SAS 程序即可,即要抽取样本容量为12 的样本,其中母羊4 只,公羊8 只(根据字母排列顺序系统自动默认分组时母羊F 和公羊M 的顺序)。
分层抽样SAS 程序运行结果如图2.6 所示。

图2.6 分层抽样SAS 程序运行结果
(四)整群抽样
整群抽样是指先将总体按照某种标准分群,每个群为一个抽样单位,用随机的方法从中抽取若干群,抽中的样本群中的所有单位都要进行调查。整群抽样的单位不是单个的个体,而是成群的个体。整群抽样是减小群间异质性,增大群内异质性;分层抽样是增加层内的同质性和层间的异质性。整群抽样与简单随机抽样的原理相同,因此SAS 程序与简单随机抽样基本一致。
例2.2 互助八眉猪原种育繁场共有育成猪圈舍50 个,随机抽取其中的8 个,对8 个育成猪舍中的所有个体进行蓝耳病检查,将这50 个猪舍随机给予1 ~50 编号,编写SAS 程序进行整群抽样,程序如图2.7 所示。

图2.7 整群抽样SAS 程序
SAS 输出结果如下:
结果显示分为两部分,①抽样基本信息总结,抽样方法为非重复简单随机抽样,抽样的原始数据库为EXAMPLE,所需要抽样的样本容量为8,抽样概率为0.16。
②由随机抽取的样本所组成的数据集。随机抽取了4、9、13、16、33、35、37、38 号猪圈中的所有育成猪作为试验研究的对象。
整群抽样SAS 程序运行结果如图2.8 所示。

图2.8 整群抽样SAS 程序运行结果
(五)多阶段抽样
将总体分成若干个小的群体,但并不在每一个小的群体中抽取一个样本,而是将这些小群体称为第1 性抽样单元,将它们看成个体进行抽样,然后再对抽中的第1 阶抽样单元中的个体抽样,这样的抽样当然可以不止二阶而是多阶的,先抽第1 阶样单元,再在第1 阶样单元中抽第2 阶样单元,再在第2 阶样单元中抽第3 阶样单元,如此直至最基层的个体。当总体中的个体数太大,或其他技术上的原因无法直接对个体进行编号时,可以采用多阶段抽样。先按第1 阶样单元编号,抽取若干个,再在抽得的第1 阶单元内编号,抽取下一级单元。多阶抽样可以使现场观测的样本单元比较集中,有利于节省试验费用。
多阶段抽样的SAS 程序也是以单纯随机抽样和系统抽样为基础,只是每一次抽样过程需编写一个SAS 程序而已,即需要编写多个SAS 程序已进行多次抽样。
例2.3 青海省海东市有63 个规模化猪场,每个猪场平均有450 头八眉育成猪,随机抽取部分八眉猪进行蓝耳病检测,考虑样本量较大,计划进行多次抽样,首先随机抽取其中的5个猪场,接着分别从确定的5 个猪场中各随机抽取10 头八眉育成猪进行蓝耳病检测。此次抽样需要分两步,先随机抽取猪场,编写SAS 程序如图2.9 所示。

图2.9 多阶段抽样SAS 程序Ⅰ
SAS 输出结果如下:
结果显示分为两部分,①抽样基本信息总结,抽样方法为非重复简单随机抽样,抽样的原始数据库为EXAMPLE,所需抽样的样本容量为5,抽样概率为0.079。
②由随机取样的样本所组成的数据集,随机抽取了12、18、22、45、51 猪圈作为一级抽样单元。
多阶段抽样SAS 程序Ⅰ运行结果如图2.10 所示。

图2.10 多阶段抽样SAS 程序Ⅰ运行结果
第二步:需要在上述一级抽样单元中分别选取10 个八眉育成猪进行蓝耳病检测。编写SAS 程序如图2.11 所示。

图2.11 多阶段抽样SAS 程序Ⅱ
SAS 输出结果如下:
①猪场12 抽样基本信息以及所抽取的八眉育成猪编号。
②猪场18 抽样基本信息以及所抽取的八眉育成猪编号。
③猪场22 抽样基本信息以及所抽取的八眉育成猪编号。
④猪场45 抽样基本信息以及所抽取的八眉育成猪编号。
⑤猪场51 抽样基本信息以及所抽取的八眉育成猪编号。
本例通过多阶段抽样,随机抽取了5 个猪场,接着在每个猪场又随机抽取了10 头八眉育成猪作为试验对象进行蓝耳病检测。
多阶段抽样SAS 程序Ⅱ运行结果如图2.12 所示。

图2.12 多阶段抽样SAS 程序Ⅱ运行结果
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
