首页 理论教育 维度归约:减少随机变量与属性个数

维度归约:减少随机变量与属性个数

时间:2023-06-27 理论教育 版权反馈
【摘要】:维度归约以减少所考虑的随机变量或属性的个数为目标。维度归约使用数据编码或变换得到原数据归约或“压缩”表示,减少所考虑的随机变量或属性个数。多于二维的多维数据可以通过PCA将问题归约为二维问题来处理。通过下面的代码载入Boston数据集后,可以获得该数据集的大小,共506行,13个特征维度。

维度归约:减少随机变量与属性个数

维度归约以减少所考虑的随机变量或属性的个数为目标。维度归约使用数据编码或变换得到原数据归约或“压缩”表示,减少所考虑的随机变量或属性个数。若归约后的数据只能重新构造原始数据的近似表示,则该数据归约是有损的;若可以构造出原始数据而不丢失任何信息,则是无损的。

1.主成分分析

主要成分分析是一种广泛使用的维度归约方法,它把原始数据变换或投影到较小的空间。主成分分析(Principal Component Analysis,PCA)又称为K-L方法,搜索k个最能代表数据的n维正交向量,其中k≤n。这样,原来的数据投影到一个小得多的空间,实现维度归约。

1)PCA基本方法

通过创建一个替换的、较小的变量集“组合”属性的基本要素。原数据可以投影到该较小的集合中。PCA常常能够揭示先前未曾察觉的联系,并因此允许解释不寻常的结果。

2)PCA基本过程

(1)对输入数据X={x1,x2,…,xn}规范化,使得每个属性都落入相同的区间。此步有助于确保具有较大定义域的属性。

(2)PCA计算k个标准正交向量,作为规范化输入数据的基。这些基是单位向量,每个都垂直于其他向量。这些向量称为主成分。输入数据是主成分的线性组合。

(3)对主成分按“重要性”或强度降序排列。主成分本质上充当数据的新坐标系,提供关于方差的重要信息,也就是说,对坐标轴进行排序,使得第一个轴显示的数据方差最大,第二个显示的方差次之,如此下去。

(4)通过去掉较弱的成分(方差较小的那些)来归约数据。使用最强的主成分,应当能够重构原数据的很好的近似。

PCA可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。多于二维的多维数据可以通过PCA将问题归约为二维问题来处理。主成分可以用作多元回归聚类分析的输入。

2.属性子集选择

属性子集选择是另一种维度归约方法,它检测不相关、弱相关或冗余的属性(维)并删除它们,遍历所有属性子集的方法在时间代价上是昂贵的,因为分析具有n个属性的数据的每个子集至少需要O(2n)的时间。完成这项任务最简单的方法是使用统计显著性测试,以便识别出最佳(或最差)属性。统计显著性检验假设属性彼此独立。该方法是一种贪心算法,首先确定显著性水平(显著性水平的统计理想值为5%),之后反复测试模型,直到所有属性的P值(概率值)小于或等于选定的显著性水平,即P值高于显著性水平的属性被丢弃了。最后我们会得到一个简化的数据属性子集,该子集中没有不相关的属性。

(1)逐步向前选择:该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每次迭代中,将原属性集剩下的属性中最好的属性添加到该集合中。(www.xing528.com)

(2)逐步向后删除:该过程由整个属性集开始。在每一步,删除掉尚在属性集中的最坏属性。

(3)逐步向前选择和逐步向后删除组合:向前选择和向后删除方法可以结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。

(4)决策树归纳:决策树算法(如ID3、C4.5和CART)最初是用于分类的。决策树归纳构造一个类似于流程图的结构,其每个内部(非树叶)结点表示一个属性上的测试,每个分枝对应于测试的一个结果;每个外部(树叶)结点表示一个类预测。在每个结点,算法选择“最好”的属性,将数据划分成类。

例3_12_PCA_AttributeSubsetSelection.py

本例选取Boston房价数据集,载入用到的包和数据集,Boston数据集是Sklearn中自带的经典数据集。

通过下面的代码载入Boston数据集后,可以获得该数据集的大小,共506行,13个特征维度。

Sklearn自带PCA函数,可以直接使用,如下代码所示。首先判断应该选取几个主成分,通过观察特征方差百分比数组,可以看到当选取前3个主成分时,累计贡献率已接近99%,所以选择3个主成分。

执行结果如下:

下面代码演示了当选取3个主成分后,如何将原始数据从13维降到3维,这三维数据占了原始数据98%以上的信息。

执行结果如下:

之后,进行属性子集的选择,使用了线性回归模型来筛选属性。

在这里调用sklearn.feature_selection包中的递归特征消除(RFE)模型实现逐步向前选择的属性子集选择方法。输出结果显示了特征的选择顺序。

执行结果如下:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈