首页 理论教育 大数据挖掘:噪声数据处理

大数据挖掘:噪声数据处理

时间:2023-07-31 理论教育 版权反馈
【摘要】:由某些偶然的、不确定的因素所造成的误差称之为随机误差。客观世界中的原始数据存在噪声是很常见的,但会影响变量真实值的反映,所以通常需要对噪声数据进行处理。用分箱法对噪声数据处理是通过对数据进行排序,利用数据“近邻”来光滑有序数据值的一种局部光滑方法,也即包括两步骤:分箱和数据平滑。回归是指通过一个函数拟合来对数据进行光滑处理。

大数据挖掘:噪声数据处理

噪声是一个测量特征中的随机错误或偏差,也即:数据集中的干扰数据(对场景描述不准确的数据),主要包括错误值或偏离期望的孤立点值。噪声怎么产生的?举个例子:手机信号来自于基站发射的电磁波,有的地方比较强,有的地方比较弱。运营商的工程师会负责统计不同区域信号强弱来进行网络规划,工程师采集信号的方法就是将一个信号接收终端固定到车上,然后开车绕着基站转,信号终端就会自动采集不同区域的信号强度,生成一份数据。但是如果车在采集过程中遇到了突发事件、急刹车,就可能会对信号采集造成一定的影响,生成噪声数据。真实数据中的噪声数据永远都是存在的。但噪声数据产生的原因有很多种,如手工的误操作、机器本身存在的误差、传输过程中发生的错误,等等。

1.噪声数据产生的原因

(1)系统误差。实验系统的组成包括:实验仪器、环境、实验的理论和方法以及实验人员。由这四种组成所引起的有规律的误差称之为系统误差。

①仪器误差:因其本身的固有缺陷、校正不完善或使用不当引起的。

②环境误差:仪器所处的外界环境如:温度、湿度、电磁场等环境的变化引发的误差。

③方法误差:由于计算公式的近似,没有完全满足理论公式所给定的条件引发的误差。

④人员误差:由测量者的个人因素造成的误差。例如:按秒表时总是超前或滞后,读数时头总是向一边偏等。

(2)随机误差。由某些偶然的、不确定的因素所造成的误差称之为随机误差。若从一次测量来看,随机误差是随机的,没有确定的规律,也不能预测。但当测量次数足够多时,随机误差遵从一定的统计分布。因此,增加测量的次数,可以明显地减少随机误差。

噪声对模型训练有什么影响呢?很多算法,特别是线性算法,都是通过迭代来获取最优解的,如果数据中含有大量的噪声数据,将会大大地影响数据的收敛速度,甚至对于训练生成模型的准确性也会有很大的副作用。

客观世界中的原始数据存在噪声是很常见的,但会影响变量真实值的反映,所以通常需要对噪声数据进行处理。在进行噪声检查后,实际操作中常用分箱、回归、计算机检查和人工检查结合等方法“光滑”数据,去掉数据中的噪声。

2.噪声数据的处理方法

(1)分箱。用分箱法对噪声数据处理是通过对数据进行排序,利用数据“近邻”来光滑有序数据值的一种局部光滑方法,也即包括两步骤:分箱和数据平滑。

①分箱方法。分箱的方法有3种:等深分箱法、等宽分箱法和用户自定义区间法。

第一,等深分箱法(统一权重

将数据集按记录行数分箱,每个箱中的记录个数相同,每个箱子中记录数称为箱子的深度。这是最简单的一种分箱方法。例如:将客户收入:800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000划分。

设定权重(箱子深度)为4,分箱后:

箱1:800 1000 1200 1500

箱2:1500 1800 2000 2300

箱3:2500 2800 3000 3500

箱4:4000 4500 4800 5000

第二,等宽分箱法(统一区间)

使数据集在整个特征值的区间上平均分布,即每个箱子的取值区间范围相同,该常量称为箱子宽度。

设定区间范围(箱子宽度)为1000元人民币,分箱后:

箱1:800 1000 1200 1500 1500 1800

箱2:2000 2300 2500 2800 3000(www.xing528.com)

箱3:3500 4000 4500

箱4:4800 5000

第三,用户自定义区间

用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

如将客户收入划分为1000元以下、1000~2000、2000~3000、3000~4000和4000元以上几组,分箱后:

箱1:800

箱2:1000 1200 1500 1500 1800 2000

箱3:2300 2500 2800 3000

箱4:3500 4000

箱5:4500 4800 5000

②数据平滑。计算每个箱中的特征值(均值、中位数、边界值)的方法主要有:

用箱均值光滑:箱子中的平均值为特征值;

用箱均值光滑:箱子中的平均值为特征值;

用箱中位数平滑:箱子中的中位数为特征值;

用箱中位数平滑:箱子中的中位数为特征值;

用箱边界平滑:箱中的最大和最小值同样被视为边界,箱子中距离较小的边界值为特征值。

使用每个箱子中的特征值来替换(平滑)箱子中的每一个值,然后将每个箱子中的新值合并构成新的数据集。

(2)回归。回归是指通过一个函数拟合来对数据进行光滑处理。线性回归涉及找出拟合两个变量(或特征)的“最佳”直线,使得一个特征可以用来预测另一个;多元线性回归是线性回归的扩充,其中涉及的特征多于两个,并且数据拟合到一个多维曲面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

(3)聚类。聚类(Clustering)就是将数据对象分组成为多个类或簇(Cluster),在同一个簇中的对象之间具有较高的相似度,而不同的簇间的对象差别较大。聚类分析可以用来进行孤立点挖掘,孤立点挖掘可以发现噪声数据,因为噪声本身就是孤立点。聚类分析发现孤立点的方法有:基于统计的孤立点检测、基于距离的孤立点检测和基于偏离的孤立点检测。

用箱边界平滑:箱中的最大和最小值同样被视为边界,箱子中距离较小的边界值为特征值。

使用每个箱子中的特征值来替换(平滑)箱子中的每一个值,然后将每个箱子中的新值合并构成新的数据集。

(2)回归。回归是指通过一个函数拟合来对数据进行光滑处理。线性回归涉及找出拟合两个变量(或特征)的“最佳”直线,使得一个特征可以用来预测另一个;多元线性回归是线性回归的扩充,其中涉及的特征多于两个,并且数据拟合到一个多维曲面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

(3)聚类。聚类(Clustering)就是将数据对象分组成为多个类或簇(Cluster),在同一个簇中的对象之间具有较高的相似度,而不同的簇间的对象差别较大。聚类分析可以用来进行孤立点挖掘,孤立点挖掘可以发现噪声数据,因为噪声本身就是孤立点。聚类分析发现孤立点的方法有:基于统计的孤立点检测、基于距离的孤立点检测和基于偏离的孤立点检测。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈