首页 理论教育 新能源汽车大数据分析:离群点诊断概要

新能源汽车大数据分析:离群点诊断概要

时间:2023-08-19 理论教育 版权反馈
【摘要】:例如,在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增、极减现象,变为离群点。因此,离群点往往被分析人员看作是一个“坏值”。

新能源汽车大数据分析:离群点诊断概要

为了使离群点不影响数据分析模型的精度和准确度,可通过一系列的算法找出数据中的离群点,然后针对离群点进行处理以提高数据质量。

1.离群点诊断的定义

离群点诊断(或称离群点挖掘)可以描述为:给出n个数据点或对象的集合,以及预期的离群点的数目k,发现与剩余的数据相比是显著差异的、异常的或不一致的前k个对象。因此,离群点诊断可以看作是在给定的数据集合中定义离群点,并找到一个有效的方法来挖掘出这样的离群点。

离群点是指数值中,远离数值的一般水平的极端大值和极端小值。形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误、工作人员出现笔误、计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如,在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增、极减现象,变为离群点。(www.xing528.com)

不论是何种原因引起的离群点,对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员不希望序列中出现离群点,因为离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前认真确认,而且当确认离群点是由于系统受外部突发因素刺激而引起的时候,它会提供相关的系统稳定性、灵敏性等重要信息。

2.离群点诊断方法分类

目前,人们已经提出了大量关于离群点挖掘的算法。这些算法大致上可以分为以下几类:基于统计学或模型的方法、基于距离或邻近度的方法、基于密度的方法和基于聚类的方法,这些方法一般称为经典的离群点挖掘方法。近年来,有不少学者从关联规则、模糊集和人工智能等其他方面出发提出了一些新的离群点挖掘算法,比较典型的有基于关联的方法、基于模糊集的方法、基于人工神经网络的方法、基于遗传算法或克隆选择的方法等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈