【摘要】:获取feature_selection_chi()函数的4个参数,然后调用该函数实现特征选择。返回值:sorted_term_set:返回按照χ2值降序排列的特征集。
1.基于卡方检验的特征选择函数
我们建立基于卡方检验的特征选择函数描述如下:
参数:
class_doc_num_list:各个类中的文档数列表。
term_set:文本集词典。
term_class_matrix:类别中含有包含特征词的文档数矩阵。
返回值:
term_set_r:排序后的特征集。
2.案例分析
卡方检验多用于文本分类系统中的特征选择,我们仍然采用上述清华大学自然语言处理与社会人文计算实验室提供的新闻语料库中的文本数据,选择5个类别,总共20条数据进行分析。与基于信息增益的特征选择方法类似,基于卡方检验特征选择方法的主要步骤如下:
(1)应用到数据获取函数get_data()获得文本集文本记录和文本对应的类别标签。
(2)获取feature_selection_chi()函数的4个参数,然后调用该函数实现特征选择。(www.xing528.com)
定义相应的特征选择函数feature_selection(train_doc_term,train_labels,train_label_dict,fs_method)描述如下:
参数:
train_doc_term:分词后的文本集。
train_labels:文本文档类别标签。
train_label_dict:文本文档类别词典。
fs_method:特征选择方法。
返回值:
sorted_term_set:返回按照χ2值降序排列的特征集。
最后,根据文本分类系统需求,选择若干特征作为最终的文本分类特征,本例中选择10个特征。
运行结果为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。