大数据挖掘：噪声数据处理

时间：2026-01-24 理论教育东北妞版权反馈

【摘要】：由某些偶然的、不确定的因素所造成的误差称之为随机误差。客观世界中的原始数据存在噪声是很常见的，但会影响变量真实值的反映，所以通常需要对噪声数据进行处理。用分箱法对噪声数据处理是通过对数据进行排序，利用数据“近邻”来光滑有序数据值的一种局部光滑方法，也即包括两步骤：分箱和数据平滑。回归是指通过一个函数拟合来对数据进行光滑处理。

噪声是一个测量特征中的随机错误或偏差，也即：数据集中的干扰数据（对场景描述不准确的数据），主要包括错误值或偏离期望的孤立点值。噪声怎么产生的？举个例子：手机信号来自于基站发射的电磁波，有的地方比较强，有的地方比较弱。运营商的工程师会负责统计不同区域信号强弱来进行网络规划，工程师采集信号的方法就是将一个信号接收终端固定到车上，然后开车绕着基站转，信号终端就会自动采集不同区域的信号强度，生成一份数据。但是如果车在采集过程中遇到了突发事件、急刹车，就可能会对信号采集造成一定的影响，生成噪声数据。真实数据中的噪声数据永远都是存在的。但噪声数据产生的原因有很多种，如手工的误操作、机器本身存在的误差、传输过程中发生的错误，等等。

1.噪声数据产生的原因

（1）系统误差。实验系统的组成包括：实验仪器、环境、实验的理论和方法以及实验人员。由这四种组成所引起的有规律的误差称之为系统误差。

①仪器误差：因其本身的固有缺陷、校正不完善或使用不当引起的。

②环境误差：仪器所处的外界环境如：温度、湿度、电磁场等环境的变化引发的误差。

③方法误差：由于计算公式的近似，没有完全满足理论公式所给定的条件引发的误差。

④人员误差：由测量者的个人因素造成的误差。例如：按秒表时总是超前或滞后，读数时头总是向一边偏等。

（2）随机误差。由某些偶然的、不确定的因素所造成的误差称之为随机误差。若从一次测量来看，随机误差是随机的，没有确定的规律，也不能预测。但当测量次数足够多时，随机误差遵从一定的统计分布。因此，增加测量的次数，可以明显地减少随机误差。

噪声对模型训练有什么影响呢？很多算法，特别是线性算法，都是通过迭代来获取最优解的，如果数据中含有大量的噪声数据，将会大大地影响数据的收敛速度，甚至对于训练生成模型的准确性也会有很大的副作用。

客观世界中的原始数据存在噪声是很常见的，但会影响变量真实值的反映，所以通常需要对噪声数据进行处理。在进行噪声检查后，实际操作中常用分箱、回归、计算机检查和人工检查结合等方法“光滑”数据，去掉数据中的噪声。

2.噪声数据的处理方法

（1）分箱。用分箱法对噪声数据处理是通过对数据进行排序，利用数据“近邻”来光滑有序数据值的一种局部光滑方法，也即包括两步骤：分箱和数据平滑。

①分箱方法。分箱的方法有3种：等深分箱法、等宽分箱法和用户自定义区间法。

第一，等深分箱法（统一权重）

将数据集按记录行数分箱，每个箱中的记录个数相同，每个箱子中记录数称为箱子的深度。这是最简单的一种分箱方法。例如：将客户收入：800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000划分。

设定权重（箱子深度）为4，分箱后：

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

第二，等宽分箱法（统一区间）

使数据集在整个特征值的区间上平均分布，即每个箱子的取值区间范围相同，该常量称为箱子宽度。

设定区间范围（箱子宽度）为1000元人民币，分箱后：

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000(https://www.xing528.com)

箱3：3500 4000 4500

箱4：4800 5000

第三，用户自定义区间

用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。

如将客户收入划分为1000元以下、1000～2000、2000～3000、3000～4000和4000元以上几组，分箱后：

箱1：800

箱2：1000 1200 1500 1500 1800 2000

箱3：2300 2500 2800 3000

箱4：3500 4000

箱5：4500 4800 5000

②数据平滑。计算每个箱中的特征值（均值、中位数、边界值）的方法主要有：

用箱均值光滑：箱子中的平均值为特征值；

用箱中位数平滑：箱子中的中位数为特征值；

用箱边界平滑：箱中的最大和最小值同样被视为边界，箱子中距离较小的边界值为特征值。

使用每个箱子中的特征值来替换（平滑）箱子中的每一个值，然后将每个箱子中的新值合并构成新的数据集。

（2）回归。回归是指通过一个函数拟合来对数据进行光滑处理。线性回归涉及找出拟合两个变量（或特征）的“最佳”直线，使得一个特征可以用来预测另一个；多元线性回归是线性回归的扩充，其中涉及的特征多于两个，并且数据拟合到一个多维曲面。使用回归，找出适合数据的数学方程式，能够帮助消除噪声。

（3）聚类。聚类（Clustering）就是将数据对象分组成为多个类或簇（Cluster），在同一个簇中的对象之间具有较高的相似度，而不同的簇间的对象差别较大。聚类分析可以用来进行孤立点挖掘，孤立点挖掘可以发现噪声数据，因为噪声本身就是孤立点。聚类分析发现孤立点的方法有：基于统计的孤立点检测、基于距离的孤立点检测和基于偏离的孤立点检测。

用箱边界平滑：箱中的最大和最小值同样被视为边界，箱子中距离较小的边界值为特征值。

使用每个箱子中的特征值来替换（平滑）箱子中的每一个值，然后将每个箱子中的新值合并构成新的数据集。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

大数据挖掘：噪声数据处理

相关推荐

大数据挖掘：噪声数据处理

相关文章：

相关推荐