首页 理论教育 数据标准化在服刑人员再犯罪预测中的作用

数据标准化在服刑人员再犯罪预测中的作用

时间:2023-07-31 理论教育 版权反馈
【摘要】:数据标准化处理是数据挖掘的一项基本操作,也称为特征缩放,是将数据按比例缩放,使之落入一个特定区间。为了消除数据之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性问题。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。当数据中出现离群值时,为了降低离群值的影响,可以将Z-score标准化方法总的标准差用平均绝对偏差代替。

数据标准化在服刑人员再犯罪预测中的作用

数据标准化处理是数据挖掘的一项基本操作,也称为特征缩放(Feature Scaling),是将数据按比例缩放,使之落入一个特定区间。不同数据往往具有不同的量纲,会影响到数据分析的结果。为了消除数据之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性问题。

原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。现实中,数据挖掘对象的不同特征的量纲[25]可能差异很大,数值间的差别可能很大,样本数据记录之间相似度计算结果将会受到量纲大的特征的影响,从而导致对样本数据记录相似度的计算存在偏差,不进行处理可能会影响到数据分析的结果。因此,需要对特征值按照一定比例进行缩放,使之落在一个特定的区域,从而消除量纲对数据结构的影响,便于进行综合分析。特别是基于距离的挖掘方法,在建模前一定要对数据进行如SVM、KNN、K-means、聚类等规范化处理。数据规范化处理主要有最小-最大标准化、Zscore标准化、小数定标标准化、逻辑斯蒂标准化四种[26]

1.最小-最大标准化(Min-Max Normalization)

最小-最大标准化也叫0-1标准化或离差标准化,是对原始数据的线性变换,使数据值映射到[0,1]之间。假设数据中特征x的取值集合为{x1,x2,…,xn},特征值xi被标准化的计算公式为:

其中,xi和xi*为标准化处理前和处理后的特征值,xmax为样本数据的最大值,xmin为样本数据的最小值。xmax-xmin极差。上述公式为抽象表示,对某个特征值序列x1,x2,…,xn进行变换的具体公式也可为:

其中,xi为特征原有值,yi为变换后的特征新值,则特征新值序列y1,y2,…,yn∈[0,1]且无量纲。

进一步,如果希望将特征x线性映射到任意区间[a,b],则最小-最大标准化的公式为:

最小-最大标准化保留了原来数据中存在的关系,消除了量纲和数据取值范围影响。但是,该方法也存在缺陷,如果数据值集中且某个数值很多,则标准化后各值可能会接近于0,并且相差不大;如果数据中存在离群值,标准化后的效果也较差。当将来有新数据加入并且超过目前特征值[xmin,xmax]取值范围时,会引起系统错误,需要重新确定最小和最大值。

2.Z-score标准化(Zero-Mean Normalization)

Z-score标准化是最为常用的标准化方法,也叫零均值规范化或标准差标准化。这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化,经过处理的数据符合标准正态分布,即:均值为0,标准差为1。假设数据中特征x的取值集合为{x1,x2,…,xn},特征值xi被标准化的计算公式为:

经过Z-score标准化后的特征能够直观反映每一个取值距离平均值的标准差距离,从而理解特征的整体分布情况。特征的均值落在0附近,而每一个样本离0的距离可以解释为其值远离均值的标准差距离。当数据中出现离群值时,为了降低离群值的影响,可以将Z-score标准化方法总的标准差用平均绝对偏差代替。特征x的平均绝对偏差S公式为:

由此,新的Z-score标准化公式为:(www.xing528.com)

在分类、聚类算法中,需要使用距离来度量相似性或者使用PCA技术进行降维的时候,Z-score标准化表现更好。

Z-score标准化方法适用于特征A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。该种规范化方式要求原始数据的分布可以近似为高斯分布,否则规范化的效果会变得很糟糕。

3.小数定标标准化(Decimal Scaling Normalization)

小数定标标准化通过移动某个特征值的小数点位置进行标准化,使得特征值的绝对值总是小于1。小数点的移动位数依赖于特征值的最大绝对值。假设数据中特征x的取值集合为{x1,x2,…,xn},特征值xi被标准化的计算公式为:

其中j是满足max(|xi*|)<1的最小整数,也即:max{x1*,x2*,…,xn*}<1。

例子:假设A的取值由-968到917。A的最大绝对值为986。因此,我们使j=3,即用1000除A的每个值。从而-986变换为-0.986。

小数定标标准化方法适用于特征取值比较分散,尤其是特征值分布在多个数量级的情况。尽管该方法简单实用,但是也存在缺陷,如果特征值分布集中在某几个数量级上,则小数定标标准化的特征值也会集中在某几个值附近,不利于后续数据分析时的样本区分;和最小-最大标准化类似,当有新样本数据加入时,小数定标标准化方法需要重新确定小数点移动位数;此外,该方法也会受到离群值的影响。

4.逻辑斯蒂标准化(Logistics Normalization)

逻辑斯蒂标准化利用逻辑斯蒂函数将数据中的特征值从实数域光滑映射到区间[0,1],从而实现对特征值的标准化处理。逻辑斯蒂函数曲线如图4-2所示,该函数将特征取值的实数域映射到[0,1]区间。

假设数据中特征x的取值集合为{x1,x2,…,xn},特征值xi被标准化的计算公式为:

逻辑斯蒂标准化方法适用于特征值分布相对比较集中地分布于0两侧的情况。该方法的缺陷在于:如果特征值分散且均远离0,那么标准化后的特征值会聚集于0或者1附近,造成原始值的分布及取值间的关系改变,因此在应用该方法之前,需要先分析该特征值的分布情况。

图4-2 逻辑斯蒂函数曲线图

经过数据标准化处理,原始特征数据可以变换为无量纲化指标测评值,即各特征值都处于一个相同的数量级上,可以进行相似性等相关算法所需要的计算。通常,数据标准化到同一空间后有两个好处:第一,加快了梯度下降求最优解的速度;第二,有可能提高精度,例如一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈