首页 理论教育 社会统计学:点估计与区间估计

社会统计学:点估计与区间估计

时间:2023-08-05 理论教育 版权反馈
【摘要】:与点估计不同的是:进行区间估计时,根据样本统计量的抽样分布类型,可以对样本统计量与总体未知参数的接近程度给出一个基于概率的度量。图7.1区间估计示意图在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。表7.1常用置信水平的zα/2值有关置信区间的概念可用图7.2 来表示。

社会统计学:点估计与区间估计

(1)点估计

【引例】 汽车油耗是衡量汽车性能的一个重要指标,这一指标是一个具体的数值。那么,如何得出这个具体的数值(点)来表示汽车的油耗指标呢? 对比不同型号,不同品牌汽车的油耗数据就需要知道各品牌各型号具体的油耗数值。 此时,就需要对不同型号,不同品牌汽车油耗这个数值(点)进行估计,然后进行比较。

对某品牌某型号汽车油耗进行测量过程如下,随机抽取20 辆该品牌型号的汽车,每辆汽车加入5 L 的汽油,耗完5 L 汽油形式的里程数(km)如下:

29.8 27.6 28.3 27.9 30.1 28.7 29.9 28.0 27.9 28.7

28.4 27.2 29.5 28.5 28.0 30.0 29.1 29.8 29.6 26.9

以上数据是随机抽取的一个样本容量为20 的样本观测值,那么,如何表示该品牌该型号汽车的5 L 汽油的平均行驶里程数——这个具体的数字呢? 一个很自然的想法就是利用这20 个观测值的平均数来代替该品牌该型号汽车5 L 汽油的平均行驶里程数,即用样本平均数(样本矩)代替总体平均行驶里程数(总体矩)。 这一替换过程称为替换原理,也就是矩估计法。 在上述过程中,估计出来的总体平均行驶里程数θ,是由各个样本观测值θi(θ1,θ2,θ3,…,θ20)计算得到的,即总体参数θ 的估计值θ是样本观测值的θi函数。

点估计(point estimation)就是用样本统计量的某个取值直接作为总体参数θ 的估计值。 比如,用样本均值 直接作为总体均值μ 的估计值,用样本方差s2 直接作为总体方差σ2 的估计值等。 要估计一个国家13 岁青少年的平均身高,从全国13 岁青少年中抽取一个随机样本,根据抽出的一个随机样本计算的样本平均身高为164 cm,这个164 cm就是全国13 岁青少年的一个估计值,这就是点估计。

虽然在重复抽样条件下,点估计的均值有望等于总体真值[比如,E( )=μ],但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值。 在用点估计值代表总体参数值的同时,还必须给出点估计值的可靠性,也就是说,必须能说出点估计值与总体参数的真实值接近的程度。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量,因此就不能完全依赖于一个点估计值,而是围绕点估计值构造总体参数的一个区间,这就是区间估计。

(2)区间估计

参数的点估计给出了一个具体的数值作为θ 的估计值,但点估计值精度如何? 即点估计方法估计出的估计数值与θ 的真实值之间究竟有多接近? 显然点估计本身不能回答上述问题,需要由点估计的具体分布来反映。 在实际中,度量一个点估计的精度的最直观的方法是给出未知参数的一个区间,即待估计的未知参数其具体真实值是哪一个,往往难以描述;但待估计的未知参数落在一个区间的可能性大小往往可以根据其分布状况给出比较可信的估计结果。 这便产生了区间估计的概念。

【引例】 某药品生产企业,从长期实践知道,每包药物重量X 服从正态分布,总体方差σ2 =0.06。 从某天产品中随机抽取6 包药品,测得重量为(单位:克):

14.6 15.1 14.9 14.8 15.2 15.1

若问该企业该种药物每包重量的总体均值是多少,则可以根据上述点估计进行估计得到。 但这样得出的估计值与总体均值的真实值往往是不相等的。 既然总体均值的真实值往往根据样本难以得出,那么,可以从另一个角度思考总体均值的真实值,即总体未知的均值真实值落在某一个范围的可能性大小。 那么,这个范围怎么得出呢? 这便是区间估计的内容。

区间估计(interval estimate)是在点估计的基础上,给出总体未知参数的一个区间范围。 这个区间范围通常由样本统计量的估计值加减估计误差得出。(www.xing528.com)

与点估计不同的是:进行区间估计时,根据样本统计量的抽样分布类型,可以对样本统计量与总体未知参数的接近程度给出一个基于概率的度量。

图7.1 区间估计示意图

在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间(confidence interval),其中区间的最小值称为置信下限,最大值称为置信上限。

一般地,置信下限和置信上限包含待估未知参数的概率称为置信水平(confidence level),也称为置信度或置信系数(confidence coefficient)。 即如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例称为置信水平,也称为置信度或置信系数。

在构造置信区间时,可以用所希望的任意值作为置信水平。 比较常用的置信水平及正态分布曲线下右侧面积为α/2 时的z 值(zα/2) 如表7.1 所示。

表7.1 常用置信水平的zα/2

有关置信区间的概念可用图7.2 来表示。

图7.2 置信区间示意图

从图7.1 和图7.2 不难看出,当样本量给定时,置信区间的宽度随着置信系数的增大而增大,从直觉上说,区间比较宽时,才会使这一区间有更大的可能性包含参数的真值;当置信水平固定时,置信区间的宽度随样本量的增大而减小,换言之,较大的样本所提供的有关总体的信息要比较小的样本多。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈