【摘要】:采用CHI的特征选择方法和LDA的特征抽取方法,kNN文本分类混淆矩阵见表8-28。
1.分类实现
为了分析不同特征选择方法对文本分类结果的影响,首先采用CHI特征选择方法,去除对文本表征意义不大的文本特征,然后再采用LDA的特征抽取算法,把原特征空间转换到新的低维度的特征空间中,降低文本特征空间维度。
首先给出CHI和LDA算法的两个参数:
(1)CHI特征选择特征个数:1000。
(2)LDA特征抽取个数:200。
采用CHI的特征选择方法和LDA的特征抽取方法,kNN文本分类混淆矩阵见表8-28。
表8-28 采用CHI和LDA的kNN文本分类混淆矩阵
采用CHI的特征选择方法和LDA的特征抽取方法进行kNN分类,分类的查准率、查全率和F1值等评价结果见表8-29。
表8-29 分类报告
采用CHI的特征选择方法和LDA特征抽取算法进行kNN文本分类,对分类结果从微平均、宏平均和带权平均三个方面进行了对比分析,其结果如下:
查准率对比:
查全率对比:
F1得分对比:(www.xing528.com)
2.分类效果对比分析
采用CHI和LDA相结合的特征维度缩减算法与单独采用CHI的特征维度缩减算法对比,对kNN文本分类算法的效果进行分析,其查准率、查全率、F1值、微平均、宏平均和带权平均对比如图8-10至图8-15所示。
图8-10 查准率对比
图8-11 查全率对比
图8-12 F1值对比
图8-13 微平均对比
图8-14 宏平均对比
图8-15 带权平均对比
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。