5.1.1.1 总体与个体
在一个统计问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体.对多数实际问题,总体中的个体是一些实在的人或物.比如,我们要研究某大学的学生身高情况,则该大学的全体学生构成问题的总体,而每一个学生即是一个个体.事实上,每个学生有许多特征:性别、年龄、身高、体重、民族、籍贯,等等,而在该问题中,我们关心的只是该校学生的身高如何,对其他的特征暂不予考虑.这样,每个学生(个体)所具有的数量指标值——身高就是个体,而将所有身高全体看成总体.这样一来,若抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现的机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是恰当的,从这个意义看,总体就是一个分布,而其数量指标就是服从这个分布的随机变量,以后说“从总体中抽样”与“从某分布中抽样”是同一个意思.
总体依其包含的个体总数分为有限总体和无限总体.例如,某工厂10月份生产的灯泡寿命所成的总体中,个体的总数就是10月份生产的灯泡数,这是一个有限总体;而这个工厂生产的所有灯泡的寿命所成的总体是一个无限总体,它包括以往生产和今后生产的灯泡寿命.在一个有限总体所包含的个体相当多的情况下,可以把它作为无限总体来处理.
下面我们来研究样本总体的分布规律.以某工厂10月份生产的灯泡的寿命所成的总体为例.我们知道灯泡的寿命落在各个时间区间内有一定的百分比,如灯泡寿命落在1 000小时~1 300小时的占灯泡总数的85%,落在1 300小时~1 800小时的占灯泡总数的5%,等等,即灯泡寿命的取值有一定的分布.一般来说,我们所研究的总体,即研究对象的某项数量指标是一个随机变量,它的取值在客观上有一定的分布,我们对总体的研究,就是对相应的随机变量的分布的研究.据此,我们将随机变量的分布函数和数字特征分别称为总体的分布函数和数字特征.今后将不区分总体和相应的随机变量,我们说到总体,指的是一个具有确定概率分布的随机变量(但它的分布又是未知的或至少分布中的某些参数是未知的),而每个个体则是随机变量可能取的每一个数值.我们说到总体服从某种分布,指的是研究对象的某项数量指标服从该分布.若总体服从正态分布,我们称总体为正态分布总体,简称正态总体;若总体服从指数分布,我们称总体为指数分布总体等.
5.1.1.2 样本与样本容量
为了对总体X的分布规律或某些特征进行研究,初看起来,最理想的办法是对每个个体逐个进行观察和试验,但由于工作量太大或试验具有破坏性,这种方法往往是不现实的.一般地,我们都是从总体中随机抽取部分个体进行试验观察,整理分析得到的数据,对总体情况作出估计和推断.这种由部分推断总体的方法是数理统计最根本的方法,具有非常重要的意义.
从一个总体X中随机抽取的n个个体X1,X2,…,Xn称为总体的一组样本,样本中个体的数目n称为样本容量.由于样本中的个体X1,X2,…,Xn是从总体X中随机抽取出来的,它们中的每一个Xi(i=1,2,…,n)都是随机变量.在一次抽取观察后,得到的一串具体数据x1,x2,…,xn称为样本的一组观察值,简称为样本值.一般来说,不同批次的抽取,所得观察值可能不同.这里说明一点,为了避免符号上的麻烦,今后我们不严格区别样本和样本值.可从上下文的叙述中了解哪个是样本,哪个是样本值.
5.1.1.3 简单随机样本(www.xing528.com)
由于抽样的目的是对总体进行统计推断,为了保证从样本推断总体时,有一定的精确度和可靠度,我们从总体中抽取样本时必须是随机的,即每一个体都有同等概率被抽取,其具体要求为两个方面:一是代表性,指X1,X2,…,Xn中每一个都与总体X有相同的分布,二是独立性,指X1,X2,…,Xn相互独立.
定义5.1 设X1,X2,…,Xn是来自总体X的容量为n的样本,如果X1,X2,…,Xn相互独立且每一个都是与总体X有相同分布的随机变量,则称X1,X2,…,Xn为总体X的简单随机样本,简称样本.
对于简单随机样本,我们可以应用概率论中,对独立随机变量情形所建立的许多重要结论,这些重要结论是数理统计学必要的基础.
怎样才能得到简单随机变量呢?在实际中抽取方法并不难.例如,当抽取的样本容量相对总体容量很小时(如10 000件中抽取50件),则接连抽取的n个个体就可以近似认为是一个简单随机样本.如果每抽取一件后又原样放回总体中,然后再抽下一件,则不必要求相对总体容量很小,这样抽得的n个个体就是一个简单随机样本.又如,对一个事物重复测量其长度,测量值是一个随机变量,重复测量n次得到的样本也是简单随机样本.
今后,若无特别说明,凡提到样本都是简单随机样本.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。