首页 理论教育 基于word2vec的动词角色聚类研究成果

基于word2vec的动词角色聚类研究成果

时间:2023-11-20 理论教育 版权反馈
【摘要】:word2vec的词向量表示是一种根据词汇上下文训练出的词汇分布式表示方式,在学习时通过神经语言模型进行训练。附带上Postag标签的文本未压缩体积为258M,对于word2vec模型训练而言,这是一个可以接受的大小。经过word2vec训练得到各个词的向量表示,利用词汇附带的词性标签过滤掉非动词词汇,得到动词的词向量。本书对这些没有被处理的词汇采用了word2vec工具原生提供的聚类方案,将语料中的所有词汇根据其词向量表示进行K-Means聚类,聚类数量为1 000。

基于word2vec的动词角色聚类研究成果

上下文特征如“we present<OJBECT>”和“<OBJECT>is presented”对揭示词汇的功能非常有效。因此,找出词汇通过dobj等句法关系连接的动词并将其用于标注学习,对提升标注效果会有一定的帮助。然而,动词的形式多种多样,直接把将词汇关联的动词用于特征会带来特征稀疏的问题。因此,需要对动词进行聚类,以降低特征稀疏性带来的不利影响。

在文本中,笔者观察到一种现象:有可能动词原本的词义虽不尽相同,但是在一定的语境下却表达了同样的意义。

表3-2 本身词义不同但在语境下表达同样含义的文本示例

在表3-2中,“present”和“propose”字面含义不相同,但在一定的上下文语境中,这两个词汇却在表达同样的含义,即“提出”一种新的模型。再如“use”和“employ”,本身的含义完全不同,但在上下文语境中,两个词汇都在表示同样的动作,即“我们”“使用”了“SVM”。本节将动词在上下文语境下体现出的功用称为动词角色。

如果能够将这些具有相同动词角色的动词词汇加以聚合,便有可能根据聚合得到的词典以及小样本训练数据对词汇功能进行有效标注。现在的问题是,这种类别词典并不易编制,如果采用人工的方式编制,会带来较大的成本,且编制出的词典可能会不具备领域推广性,一旦处理的文本领域不同,很有可能词典会失效。

深度学习研究的进展为动词角色词典的编制提供了技术基础,基于深度学习[110-112]的已有研究,本节提出了一种利用word2vec聚类相同角色词汇的方法。

word2vec是Mikolov[112]提出的一种利用深度学习思想构造的词嵌入(word embedding)训练工具。word2vec的词向量表示是一种根据词汇上下文训练出的词汇分布式表示方式,在学习时通过神经语言模型进行训练。模型的框架结构一般具有以下三种,如图3-3所示。子图(a)是最常用的神经语言模型的框架,子图(b)是连续词袋模型,去掉了最耗时的非线性隐藏层并且所有词共享隐藏层。子图(c)是Skip-gram模型,与连续词袋模型相反,通过对邻近词的预测来进行模型训练。对于Web文本,根据文献[112],Skip-gram模型要优于连续词袋模型。由于数据集的特性,本节使用了连续词袋模型训练词嵌入模型。

图3-3 神经网络语言模型的三个不同架构

神经语言模型通过使用词汇的上下文信息,将词汇映射到多维空间中去。具有类似的上下文的词汇在空间中倾向于靠近,这意味着可以通过度量词汇的距离发现具有相似上下文的词汇。同以LDA[113-114]为代表的主题模型(topic model)不同,主题模型强调的是语义上的相关性,而word2vec的词嵌入模型更多的是衡量词汇在上下文的可替代性。

为了获取词汇角色词典,本书使用了ACM数据库收录论文的摘要文本作为训练集。对摘要进行句子切分,共得到1 150 493个句子。使用Stanford Postag工具[115-116]对句子进行词性标注,得到的结果形式如表3-3所示。附带上Postag标签的文本未压缩体积为258M,对于word2vec模型训练而言,这是一个可以接受的大小。经过word2vec训练得到各个词的向量表示,利用词汇附带的词性标签过滤掉非动词词汇,得到动词的词向量。

本书统计了ACM数据库收录文本中摘要的动词频次,对前2 000个动词词汇,使用一个基于规则的方法进行聚类,算法描述见表3-5 Algorithm 1。(www.xing528.com)

表3-3 附带词性标记的训练数据生成样例

经过聚类,共得到词汇类别649类,部分词汇及对应类别见表3-4。

表3-4 词汇聚类结果示例

续表

在特征构造方法中提到了使用词汇功能聚类的结果替换原始词汇以形成新的特征的方法,但本节介绍的方法仅对经常出现的动词进行了聚类,有大量的词汇并没有被处理,此外,还存在其他词性的词汇。本书对这些没有被处理的词汇采用了word2vec工具原生提供的聚类方案,将语料中的所有词汇根据其词向量表示进行K-Means聚类,聚类数量为1 000。如果词汇没有出现在动词角色聚类的结果之中,则返回其在K-Means聚类中被赋予的类别(见表3-5)。

表3-5

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈