问题描述与分析 爱看电视节目的读者或许还记得,在电视歌手比赛中,每一位参赛歌手的得分,都是将各评委的评分去掉一个最高分和一个最低分,再取平均计算出来的。 为什么要这样做呢? 这是为了避免个别过高或过低的不合理评分影响歌手的成绩。实际上,在对数据进行统计分析时,往往需要考虑是否有异常值的干扰。 异常值是指样本中的个别值,其数值明显偏离其所属样本的其余观测值。 异常值可能是总体固有的随机变异值的极端表现,这种异常值和样本中其余观测值属于同一总体。 异常值也可能是试验条件和试验方法的偶然偏离产生的后果,或产生于观测、计算、记录中的失误。 这种异常值和样本中其余观测值不属于同一总体。
由于异常值的出现对经典的统计方法影响较大,比如,一个偏离严重的异常值将使常用的统计量X 的值产生较大偏差,因此,关于异常值的检验也逐渐成为统计学中的重要问题。
模型建立与求解 一旦样本观测值中存在异常值,那么它一定是样本观测值中的最大值X(n)或最小值X(1),如果同侧不止一个异常值,则依次为X(n-1)或X(2),以此类推。 构造异常值的检验统计量,通常是按照能描述样本极值X(n)或X(1)与样本主体之间的差异的原则来进行的。 例如,关于正态分布总体,统计学家格拉布斯(Grubbs)提出如下的检验统计量
用G(n)检验极小值X(1),用G(m)检验极大值X(n)是否为异常值。 提出了检验统计量,然后在不存在异常值的原假设下,推导出相应的抽样分布并计算出检验的临界值,即可进行异常值检验了。 如果拒绝原假设,则判断相应的X(n)或X(t)为异常值。
此外,对于一些常见的分布如指数分布、极值分布等,都有一些统计学者提出了异常值的检验方法。 我国还颁布了几个关于异常值检验的国家标准。 对于用统计方法检验出的异常值,应尽可能寻找产生异常值的技术上的、物理上的原因,作为处理异常值的依据。
处理异常值的方式通常有:将异常值保留在样本中,参加其后的数据分析,但对相应的结果给予必要的关注;将异常值从样本中别除后,再做数据分析;将异常值剔除后,追加适宜的观测值计入样本;寻找产生异常值的实际原因修正异常值。 一般应根据实际问题的性质,权衡得失风险,确定处理方式。(www.xing528.com)
实例验证与分析
射击16 发子弹,射程(由小至大排列)分别为1 125 1 248 1 250 1 259 1 273 1 279 1 285 1 285 1 293 1 300 1 305 1 312 1 315 1 324 1 325 1 350(单位:米),检验极小值X(1)=1 125 是否为异常值,α=0.01。
当α=0.01,G(16)的临界值(有相应的数表可查)为2.747。
因为,临界值2.747<3.112 6 =G(16),所以判断极小值1 125 为异常值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。