1.基于SVM的情感分类
我们采用原始TF-IDF特征权值计算方法进行评论文本特征权值计算,实现文本向量化,采用原始文本全部特征作为词典,总的特征总数为6631。
在原始评论数据集上,不进行特征选择和特征抽取,直接采用原来的6631个特征进行文本向量化,采用SVM算法进行情感分类,其分类混淆矩阵和分类报告分别见表9-2和表9-3。
表9-2 在线评论情感分类混淆矩阵
表9-3 情感分类报告
查准率对比:
查全率对比:
F1得分对比:
2.基于特征选择的情感分类
为了分析特征选择算法对情感分析的影响程度,分别在原始特征词典的基础上进行特征选择,获得相应数量的特征,然后采用SVM算法进行情感分类,并对情感分类效果进行评价。
在原始在线评论文本中,以IG特征选择方法为例,说明特征选择算法在情感分类算法中的应用情况。(www.xing528.com)
为了对比分析选择不同的特征数对文本情感分类效果的影响,在原始特征数6631的基础上,分别选择特征数为:500、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000,对在不同特征数量下的情感分类效果进行分析评价,其情感分类的查准率、查全率和F1值分别如图9-1、图9-2和图9-3所示。
图9-1 情感分类查准率的微平均、宏平均和加权平均
图9-2 情感分类查全率的微平均、宏平均和加权平均
图9-3 情感分类F1值的微平均、宏平均和加权平均
根据IG特征选择方法,发现在选择特征数为3500时,情感分类各项评价指标最好。其查准率的微平均、宏平均和加权平均如下:
其查全率的微平均、宏平均和加权平均如下:
其F1值的微平均、宏平均和加权平均如下:
通过上述分析,文本情感分析可采用传统的文本分类算法,也可采用特征选择方法和特征抽取方法实现文本特征维度缩减,减少分类计算开销。本章只分析了利用特征选择方法实现文本的特征维度缩减,采用传统的机器学习文本分类算法实现文本情感分类,最后对情感分类的效果进行分析。有兴趣的读者可自行尝试采用特征抽取的算法以及特征选择和特征抽取相结合的算法实现文本情感分类,分析其情感分类效果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。