对于中文文本而言,许多应用需要从语义的角度去分析,如文本分类、情感分析、文本文档中词的语义关联分析等。
对于任意一篇文档d,其向量化的过程描述如下:
(1)采用文本分词工具实现分词、词性标注等,将文本d表示成n个词的集合
d={w1,w2,…,wn}
(2)根据训练好的词向量模型,对文本d中每个词获取其词向量,如果词向量的维度为m,如前面我们训练获取的词向量维度m=200,则可将文本d表示成一个n×m的矩阵M:
(3)根据矩阵M,可获取文本d中每个词wi(i=1,2,…,n)的词向量v(wi),然后根据文本d中每个词的词向量,获取文本d的词向量表示,可按照文本中每个词的词向量平均值来计算,即
例如,对于三篇文章,采用词向量模型实现文本向量化。
text1:
刚刚过去的2009年,基金市场为基民贡献了一份不错的成绩单。作为银行系基金公司的新军,民生加银基金公司旗下的两只基金崭露头角。
WIND数据统计显示,民生蓝筹混合型基金作为民生加银旗下首只基金,截至2009年底累计回报率达到23.7%。A股市场2009年下半年以来震荡剧烈,该基金提前布局消费、医药、化工、有色、煤炭等行业。2009年下半年以来,民生蓝筹基金获得了17.08%的正收益,同期业绩比较基准,涨幅为8.69%,跑赢业绩比较基准达8.39个百分点。(易非)
text2:
NYMEX原油期货电子盘持稳在75美元下方
文华财经(编辑整理王欣)--据新加坡9月23日消息,油价周四持稳在每桶75美元下方,先前政府公布的数据显示,美国原油和汽油库存意外增加。
尽管加拿大至美国最大的输油管线关闭长达一周,但上周库存依旧上扬,确认了市场的看法,亦即油价今年剩余时间内将大多在石油输出国组织(OPEC)乐见的水准70~80美元间波动。
OPEC成员国利比亚的官员周三表示,OPEC在下月的会议上应会维持产出目标不变,并提高减产达成率。
text3:
16款客厅设计 8款灯饰搭配(组图)
客厅整体色彩基调以及结构的布置固然重要,但是一款合适的灯饰也将为你的客厅加分。颜色鲜艳,色彩多元化的客厅,选用深色沉稳或是金属色的灯饰,能够平衡客厅的美感,达到和谐稳重之美。
文本文档分词、去停用词处理:采用jieba分词并经过去停用词处理后的结果。(www.xing528.com)
text1:
银行系基金新军崭露头角刚刚过去2009基金市场基民贡献一份不错成绩单银行系基金公司新军民生加银基金公司旗下两只基金崭露头角WIND数据统计 显示民生蓝筹混合型基金民生 加银旗下基金2009年底累计回报率达到237 A股市场2009下半年震荡剧烈基金提前布局消费医药化工有色煤炭行业2009下半年民生蓝筹基金获得1708收益 同期 业绩比较 基准涨幅869跑赢业绩 比较 基准839百分点易非
text2:
NYMEX原油期货电子盘持稳75美元 下方文华 财经编辑整理王欣新加坡月23日消息油价周四持稳每桶75美元下方先前政府公布数据显示美国原油汽油库存意外增加加拿大美国最大输油管线关闭长一周上周库存依旧上扬确认市场看法油价今年剩余时间大多石油输出国组织OPEC乐见 水准70 80美元 波动OPEC成员国利比亚 官员 周三表示OPEC月 会议应维持产出目标不变提高减产达成率
text3:
16款客厅设计款灯饰搭配组图客厅整体色彩基调结构布置重要一款合适灯饰客厅颜色鲜艳色彩多元化客厅选用深色沉稳金属色灯饰能够平衡客厅美感达到和谐稳重之美
在前面我们已经采用清华大学自然语言处理与社会人文计算实验室提供的语料库和搜狐新闻语料库进行训练,利用获得的词向量模型进行文本向量化。
本节定义了文本相似度计算函数text_vec(text,w2vModel):
参数:
text:经过分词、去停用词处理后,生成一个文本特征的序列。
w2vModel:词向量模型。
返回值:
text_vec:文本词向量。
对上述三篇中文文本进行向量化,具体的实现描述如下:
运行结果如下:
Text 1中包含83个词,其文本向量为:
Text 2中包含78个词,其文本向量为:
Text 3中包含37个词,其文本向量为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。