首页 理论教育 随机变量的数值特征及其应用

随机变量的数值特征及其应用

时间:2023-11-24 理论教育 版权反馈
【摘要】:它反映随机变量平均取值的大小。期望值是该变量输出值的平均数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。方差在数理统计中用来度量随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。峰值表征概率密度分布曲线在平均值处峰值高低的特征数。

随机变量的数值特征及其应用

自由度(degree of freedom,df)。它指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其他独立统计量的个数。自由度通常用于抽样分布中。例如,有一个包括4个数据(n=4)的样本,其平均值m等于5,即受到m=5的条件限制,在自由确定4、2、5三个数据后,第四个数据只能是9,否则m不等于5。因而这里的自由度df=4-1=3。

期望(mean)。它(或均值)是实验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”,也许与每一个结果都不相等。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。根据应用场景又可以分为算术平均数(使用场景十分广泛、很容易受极值影响)、加权平均数(根据权重比例来求平均值)、几何平均数(常用于比例速度等场景)。

中位数(Median)。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。如在描述公司内的平均工资情况比平均值更接近事实。

众数(Mode)。在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。修正定义:一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个,用M表示。简单地说,就是一组数据中占比例最多的那个数。

四分位数(Quartile)。四分位数是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距(Inter Quartile Range,IQR)

极差(Range)。极差又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得的数据。(www.xing528.com)

方差(Variance)。方差在数理统计中用来度量随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准,用来表示数据与数据中心(均值)的偏离程度。当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。同时,变量的期望相同,但方差不一定相同。在许多实际问题中,研究方差即偏离程度有着重要意义。

标准差(Standard Deviation)。标准差又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。在统计学中,当标准差来描述本组样本离散程度时,分母为n,当标准差通过样本来描述总体离散情况时,分母选用n-1。

残差(Residual)。残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。例如,在线性回归中,每一点的估计值和实际值的差的平方之和称为残差平方和。

峰值(Kurtosis)。峰值表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于3,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差。正态分布的峰度为3。一般来说,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

偏度(Stewness)表征概率分布密度曲线相对于平均值不对称程度的特征数。直观看来就是密度函数曲线尾部的相对长度。两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈