首页 理论教育 基本概念:构建语料库的词袋及文本向量化表示

基本概念:构建语料库的词袋及文本向量化表示

时间:2023-11-06 理论教育 版权反馈
【摘要】:构建了语料库的词袋,可以通过文本中的词在词袋中的出现次数实现文本的数值表示,如语料库D的词袋大小是14,则文本就可以表示为14维的向量。表5-1文本向量化表示通过上述表示,把文本文档转化为向量表示,即实现文档向量化。同时,词的重要程度是通过词频表示,如文本0中的高频词“是”“清华大学”“学生”。

基本概念:构建语料库的词袋及文本向量化表示

词袋模型(bag-of-words,BOW)是自然语言处理中常用的文本处理模型,可实现文本表示。词袋模型中,把文本数据集中所有出现的词集合起来形成一个词典,然后对每个文本文档中的词与词典中的词进行映射,实现文本表示。

词袋模型是最原始的文本表示方法,文本经过分词后形成词序列,其中每个词就是一个特征,特征值就是词在文本中的出现次数。

设文本集D={文本0,文本1},例如:

经过分词:

建立词典:

词典的大小为14,即词袋大小为14,则两篇文本可由词典中的14个词组成,可通过词典里的索引号获取相应的词。

构建了语料库的词袋,可以通过文本中的词在词袋中的出现次数实现文本的数值表示,如语料库D的词袋大小是14,则文本就可以表示为14维的向量。如文本0和文本1的向量化表示见表5-1。

表5-1 文本向量化表示

(www.xing528.com)

通过上述表示,把文本文档转化为向量表示,即实现文档向量化。采用词袋模型实现文本向量化,就是获取每个文本特征的出现次数,如特征“学生”在文本0中出现了2次。

词袋模型表示文档,具有以下特征:

(1)用词在文档中的出现次数表示词对文本的重要程度,出现次数越高,该词对文本越重要。

(2)用一组无序的词表示文档,忽略了文本的语序。

因此,该模型的主要缺点是忽略了文本中词的次序,从词的序列中并不能获得其在文本中出现的次序,如文本1的表示中,词“清华大学”排到第一位。没有考虑词的上下文关系,导致对文本语义分析不足。同时,词的重要程度是通过词频表示,如文本0中的高频词“是”“清华大学”“学生”。在这种模型中有部分并不怎么代表文本0实际语义信息的词反而会达到较高的词频,如“是”,这种情况会影响整个文本关键语义分析的结果。

因此,可以通过简单的特征选择方法实现文本特征词选择,如通过去掉停用词和特殊字符的方法过滤掉没有实际意义的词。

去掉停用词:

建立词典:

通过停用词处理,删除了原来的“是”“从”和“后”,词典由原来的14个变成11个,也就是说文本文档向量将会变成11维度的向量,降低了维度的同时减少了非关键词对文本分析的干扰。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈