首页 理论教育 Python文本分类:CHI特征选择与LDA特征抽取

Python文本分类:CHI特征选择与LDA特征抽取

时间:2023-11-06 理论教育 版权反馈
【摘要】:采用CHI的特征选择方法和LDA的特征抽取方法,kNN文本分类混淆矩阵见表8-28。

Python文本分类:CHI特征选择与LDA特征抽取

1.分类实现

为了分析不同特征选择方法对文本分类结果的影响,首先采用CHI特征选择方法,去除对文本表征意义不大的文本特征,然后再采用LDA的特征抽取算法,把原特征空间转换到新的低维度的特征空间中,降低文本特征空间维度。

首先给出CHI和LDA算法的两个参数:

(1)CHI特征选择特征个数:1000。

(2)LDA特征抽取个数:200。

采用CHI的特征选择方法和LDA的特征抽取方法,kNN文本分类混淆矩阵见表8-28。

表8-28 采用CHI和LDA的kNN文本分类混淆矩阵

采用CHI的特征选择方法和LDA的特征抽取方法进行kNN分类,分类的查准率查全率和F1值等评价结果见表8-29。

表8-29 分类报告

采用CHI的特征选择方法和LDA特征抽取算法进行kNN文本分类,对分类结果从微平均、宏平均和带权平均三个方面进行了对比分析,其结果如下:

查准率对比:

查全率对比:

F1得分对比:(www.xing528.com)

2.分类效果对比分析

采用CHI和LDA相结合的特征维度缩减算法与单独采用CHI的特征维度缩减算法对比,对kNN文本分类算法的效果进行分析,其查准率、查全率、F1值、微平均、宏平均和带权平均对比如图8-10至图8-15所示。

图8-10 查准率对比

图8-11 查全率对比

图8-12 F1值对比

图8-13 微平均对比

图8-14 宏平均对比

图8-15 带权平均对比

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈