【摘要】:文本关键词能够反映文本主题内容,关键词提取算法很多,可采用不同的算法实现关键词提取。采用词向量方法实现中文文本关键词提取,主要从以下几个方面进行:中文文本分词、预处理、去除停用词等。根据词与文本之间的相似度进行降序排序,获得排序在前的若干个词作为文本的关键词。我们仍然采用上节描述的三个文本进行测试,对其中的关键词进行提取,其实现过程描述如下:运行结果如下:text1:text2:text3:
文本关键词能够反映文本主题内容,关键词提取算法很多,可采用不同的算法实现关键词提取。采用词向量方法实现中文文本关键词提取,主要从以下几个方面进行:
(1)中文文本分词、预处理、去除停用词等。
(2)采用词向量实现文本向量化,即利用上节描述的文本中所有词向量的平均值实现文本向量化。
(3)根据文本中每个词的词向量,计算词和文档之间的相似度。相似度的计算可采用上节描述的欧氏距离或余弦相似度进行。
(4)根据词与文本之间的相似度进行降序排序,获得排序在前的若干个词作为文本的关键词。
我们定义了如下的关键词提取函数:
参数:
text:经过分词、预处理后的文本(词序列)。
w2vModel:采用Word2vec训练好的词向量模型。
simMethod:向量相似度计算方法,可选“cos”和“euclid”。(www.xing528.com)
topn:提取topn个关键词。
返回值:
key_order[:topn]:返回topn个关键词。
我们提取相似度最高的前10个词作为文本的关键词,文本向量表示采用上节描述的方法(还有许多改进的方法,读者有兴趣可以自行去研究,此处只是为了介绍相关方法而没有进行相应算法的效果评价)。向量相似度采用上节描述的余弦相似度计算方法(cos_sim)。
我们仍然采用上节描述的三个文本进行测试,对其中的关键词进行提取,其实现过程描述如下:
运行结果如下:
text1:
text2:
text3:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。