首页 理论教育 测度离中趋势的指标优化

测度离中趋势的指标优化

时间:2023-06-04 理论教育 版权反馈
【摘要】:用来测度数据离中趋势的指标主要有:极差、四分间距、平均差、方差、标准差和离散系数等。但是如果均值不同时,比较其分散程度就要利用下一部分介绍的离散系数来测度。其计算公式如下:一般来说,如果数据具有以下特点之一,就可以使用离散系数:数据具有不同的计量单位。在例4.10中我们计算得到:x-=1493,s=362,则离散系数是:对于月可支配收入而言,标准差是平均数的24.25%。

测度离中趋势的指标优化

本节主要介绍离中趋势(或离散程度、变异度)的测度指标。数据沿着中心的变化信息可以帮助我们形象化数据集的形状和它的极值。用来测度数据离中趋势的指标主要有:极差、四分间距、平均差、方差、标准差和离散系数等。

4.2.1 极差(range)

极差(range)通常记为R,即最大值与最小值之差,是一种简单的测度数据分散程度的方法。其公式为:

R=xmax-xmin

式中:xmax为这组数据中的最大值;xmin为这组数据中的最小值。

根据例4.2的数据,最大值为26,最小值为0,因此极差=26-0=26。

一组数据的差异越大,其极差也越大。极差很容易计算,而且通常是一个很有用的数。但是极差有很大的局限性,它仅考虑了两个极端值的数据,没有利用其余数据的信息,因此极差对极端值十分敏感。如果例4.2的数据中最大值为7,则极差变为7。而且当数据集很大时,极差对数据变化的反应是相当不敏感的。这是因为两个数据集可以拥有相同的极差,但是在数据内部的变化上却可以非常不同。

4.2.2 四分间距(quartile deviation,inter-quartile range)

四分间距通常记为Qd,即第三四分位数与第一四分位数之差。其计算公式为:

Qd=Q3-Q1

根据例4.4的数据,我们已经计算了Q3=16,Q1=10,则Qd=16-10=6。

四分间距反映了中间50%数据的离散程度,其值越小,说明中间的数据越集中; 其值越大,说明中间的数据越分散。四分间距不受极端值的影响。此外,由于中位数处于数据的中间位置,因此四分间距的大小在一定程度上也说明了中位数对一组数据的代表程度。

4.2.3 平均差(mean deviation)

平均差通常记为Md,即各变量值与其均值离差绝对值的平均数。

根据未分组的数据计算平均差的公式为:

根据分组的数据计算平均差的公式为:

式中:Mi代表各组的组中值;fi代表各组对应的频数。

[例4.8]根据表3-8的数据,计算某城市居民家庭月人均收入的平均差。

解: 已知=1493元,计算过程见表4-3。

表4-3 某城市居民家庭月人均收入的平均差的计算表

根据上式得: =282.78(元)

平均差以均值为中心,反映了每个数据与均值的平均差异程度,它能全面准确地反映数据的离散程度。平均差越大,说明数据的离散程度越大; 反之,平均差越小,说明数据的离散程度越小。为了避免离差之和等于零而无法计算平均差这一问题,平均差计算时对离差取绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便。同时平均差在数学性质上也不是最优的,因而实际中应用较少。但平均差的实际意义比较清楚,容易理解。

4.2.4 方差和标准差

方差和标准差是测度定量数据的离中趋势最主要的方法。根据总体数据还是样本数据计算的方差和标准差在统计处理上略有不同。

4.2.4.1 方差(variance)

方差是各变量值与其均值离差平方和的平均数。根据总体数据计算的方差,一般称为总体方差,通常记为σ2; 根据样本数据计算的方差,一般称为样本方差,通常记为s2

计算公式如下:

总体方差:

样本方差:

4.2.4.2 标准差(standard deviation)

标准差是方差的平方根。标准差的计算公式为:

总体标准差:(www.xing528.com)

样本标准差:

与方差不同,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差更清楚。因此,在对实际问题进行分析的时候,我们更多地使用标准差。下面我们分别以未分组样本数据和分组样本数据来介绍标准差的计算过程。

[例4.9]在一个企业中随机抽取9名职工,得到每人的月工资收入数据如下(单位:元):

1500 750 780 1080 850 960 2000 1250 1630

试计算职工的月工资收入的标准差。

[例4.10]根据表3-8的数据,计算某城市居民家庭月人均收入的标准差。

解: 已知=1493元,计算过程见表4-4。

表4-4 某城市居民家庭月人均收入的标准差的计算表

一般而言,标准差越大,说明数据越分散; 标准差越小,说明数据越集中。但是当进行两个或者多个数据集分散程度的比较时,如果均值相同可以直接利用标准差来比较。但是如果均值不同时,比较其分散程度就要利用下一部分介绍的离散系数来测度。

4.2.5 离散系数(coefficient of variation)

离散系数通常记为CV,是标准差与平均数之比。其计算公式如下:

一般来说,如果数据具有以下特点之一,就可以使用离散系数:

(1)数据具有不同的计量单位(比如销售额和营业面积)。

(2)数据具有相同的计量单位,但是均值相去甚远(比如大象的体重和老鼠的体重)。

在例4.10中我们计算得到:x-=1493,s=362,则离散系数是:

对于月可支配收入而言,标准差是平均数的24.25%。

4.2.6 标准分数(z-score)

有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断数据是否有异常值。

标准分数通常记为zi,是变量值与其平均数的离差除以标准差后的值。计算公式为:

[例4.11]根据例4.9的数据,计算每个职工月工资的标准分数。

解: 根据已知数据计算得:=1200,s=432。计算得到每个职工月工资的标准分数如表4-5所示。

表4-5 月工资的标准分数

续表

由表4-5可知,收入最高的职工其工资比平均数高1.852个标准差,收入最低的职工其工资比平均数低1.042个标准差。

实际上,把任何一组数据转换成标准分数之后,均值都变成0,标准差都变成1。

经验法则表明,当一组数据对称分布时:

约有68%的数据在平均数加减1个标准差的范围之内;

约有95%的数据在平均数加减2个标准差的范围之内;

约有99%的数据在平均数加减3个标准差的范围之内。

根据表4-5的结果,在平均数加减1个标准差范围内,1200±432=(768,1632),共有7个职工,占职工总数的77.78%; 在平均数加减2个标准差范围内,1200±2×432=(336,2064),共有9个职工,占职工总数的100%。没有在2个标准差之外的数据。

可以想象,一组数据中高于或者低于平均数加减3倍标准差的数值是很少的,也就是说,在平均数加减3个标准差的范围内几乎包含了全部数据,而在3个标准差之外的数据,在统计上也称为离群点(或异常值)。比如,职工的月工资数据中就没有离群点(或异常值)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈