首页 理论教育 数据预处理的重要性与方法

数据预处理的重要性与方法

时间:2023-07-02 理论教育 版权反馈
【摘要】:在预测控制的实际工程应用中,要通过测试得到有效的数据,因为如果数据不够好,则任何的数据处理方法也难以重获好的数据集。数据处理涉及很多本书未能阐述的细节和专业知识。采集到数据后,必须首先根据数据的波形来检查是否存在这些缺陷。高通滤波器会使数据更平稳。获得的数据大小与物理量及单位有关。

数据预处理的重要性与方法

在预测控制的实际工程应用中,要通过测试得到有效的数据,因为如果数据不够好,则任何的数据处理方法也难以重获好的数据集。数据处理涉及很多本书未能阐述的细节和专业知识。文献中对数据处理给出了很多建议(如参考文献[93]等),我们对此整理简述如下。

通常,通过测试实验收集的数据是不能直接应用于辨识算法的,因为这些数据可能存在以下几种缺陷:

(1)数据中包含高频(测量)噪声;

(2)偶然出现的脉冲和废值(或坏值);

(3)有时出现大的不可测扰动,它们可能会使过程超出线性范围;

(4)实验过程中操作点的改变可能导致数据的非线性

(5)漂移和底层控制失调,低频扰动。

采集到数据后,必须首先根据数据的波形来检查是否存在这些缺陷。接下来,将讨论怎样处理数据以消除或减少这些缺陷的影响。

1.废值和脉冲的剔除

废值和脉冲的幅值一般远超过实际信号范围。由于废值和脉冲的功率可能很大,因此它们可能会对模型参数估计结果造成相当大的潜在影响。在大多数情况下,直接观察和利用过程知识就足以完成这个工作。具体处理方法有两种,第一种方法是将废值和脉冲直接从数据集里面剔除,这样原始数据集就被分解为两个或两个以上的不连续数据集,或者将这些数据集分别置于辨识算法中去,得出多组模型参数,通过加权平均的方法得到最终的模型参数,或者适当合并这些数据集,采用合并后的数据集辨识模型参数;第二个方法是指定废值或脉冲数据区间,在此区间内使用插值方法将原始数据覆盖。两种方法相比,第一种方法相对精确,因为插值方法虽然在一定程度上能够降低废值和脉冲对辨识结果的影响,但插值数据与真实值之间毕竟存在一定的误差。

2.信号限幅(www.xing528.com)

对线性模型辨识,通常利用限幅值剔除一部分信号。幅值偏高的一个可能原因是过程紊乱,相当于产生了剧烈的不可测扰动,这时信号幅值可能已超出线性区域。一般来说,限幅可通过观察和利用过程知识完成。对于该工作,一个良好的图形用户界面是必要的。废值剔除和限幅值之间是有区别的,废值剔除中消除的一般是不真实的测量值。但限幅消除的部分信号是真实测量值,该部分信号要么信噪比远远低于平均值,要么存在严重的非线性。需要指出,信号限幅值剔除工作需要有很强的现场工作经验,对软件的使用者提出了很高的要求。工作人员一方面需要对过程工艺有整体上的认识;另一方面也需要对控制理论有着深刻的理解。

3.趋势校正或高通滤波

工业数据中往往会出现各种漂移或缓慢变化。例如进料成分的变化和环境温度的变化造成的各种变化。数据的趋势变化和漂移对估计结果有严重影响。它们的低频特性不仅使它们不能达到平衡,而且会在低频段产生模型误差。因此,需要从数据中剔除它们。

对输入和输出进行高通滤波,可以消除趋势/漂移以及一些低频段的信息,但滤波器的频带应该覆盖过程的动力学特性,这对控制是很重要的。高通滤波器还有一个额外的优点。在辨识理论中,经常采用这样一种假设,即扰动为平稳随机过程。对于有斜坡和漂移的数据来说,它们不再满足该假设。高通滤波器会使数据更平稳。

4.缩放与去偏校正

在工业应用中,输入和输出并非都处在同一数量级上。获得的数据大小与物理量及单位有关。这个问题可以通过两步来解决,首先对信号进行去偏校正,然后进行缩放处理,具体过程如下:

(1)减去信号平均值,以便利用线性模型来描述过程在稳态工作点附近的动态特性;

(2)根据输入和输出信号的功率值对它们按比例进行缩放。

5.低通滤波和降低采样频率

如果在高频段的噪声功率已经超过了容许范围,可以利用数字低通滤波器来滤掉它们。降低采样频率的作用相当于采用低通滤波器。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈