【摘要】:开始选择比较小的值,在运行过程中可根据运行结果再逐步调整参数值。fit_transform:根据文本数据集D,获得NMF模型并返回特征抽取后的文本数据。
1.NMF类
采用Scikit-learn工具中的类NMF实现特征抽取,类NMF描述如下:
(1)参数:
n_components:整型数据,是要抽取的特征数,如果没有指定值,则表明保留所有特征。
init:用于帮助我们选择W和H迭代初值的算法,默认是None,即自动选择值,不使用选择初值的算法。如果我们对收敛速度不满意,才需要关注这个值,从Scikitlearn提供的算法中选择一个合适的初值选取算法。
max_iter:整型数据,指需要计算的最大迭代次数,缺省默认值为200。
alpha:float型数据,正则化参数α,缺省时默认为0。开始选择比较小的值,在运行过程中可根据运行结果再逐步调整参数值。
(2)常用方法:
fit(D[,y]):根据文本数据集D,获取NMF模型。
fit_transform(D[,y,W,H]):根据文本数据集D,获得NMF模型并返回特征抽取后的文本数据。(www.xing528.com)
transform(D):根据已经训练好的NMF模型转换文本数据集D。
2.基于NMF的文本特征抽取
NMF的运行结果说明:
(1)原始文档-特征矩阵X:
(2)基矩阵A:
(3)系数矩阵S:
(4)主题:
(5)评价:
(6)为了验证分解效果,可还原原始矩阵,还原结果如下:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。