首页 理论教育 社会网络抽取实现实体关系自动分析

社会网络抽取实现实体关系自动分析

时间:2023-11-23 理论教育 版权反馈
【摘要】:另外在自然语言处理领域,通过对实体间关系倾向的分析也可以为文本过滤、自动文摘等研究工作提供新的思路和新的手段。通过自然语言处理的相关技术,可以获得文本中反应的情感。因而本文尝试性提出了基于社会网络抽取的实体间关系倾向分析,目的是更深层次的挖掘文本内容,使得社会网络抽取更加具有现实意义。它是由命名实体,关系指向,关系描述三部分组成的。

社会网络抽取实现实体关系自动分析

如何借助某些资源自动分析实体间的关系倾向,分析两个实体间的关系定位是对立还是统一关系,各个实体对某个问题的意见是支持还是反对,对社会各方面都有比较大的意义。在商业领域中,通过对实体间关系倾向的分析,能够为企业进行市场分析提供更多有价值的信息;在管理领域,政府舆情分析系统能够帮助领导者更快地了解群众对各类政策措施的反馈意见;在决策方面,利用实体之间的关系倾向分析能够了解各个实体对某一事件所持的态度是否一致。另外在自然语言处理领域,通过对实体间关系倾向的分析也可以为文本过滤、自动文摘等研究工作提供新的思路和新的手段。

虽然社会网络抽取虽然已经得到一定的发展,但是还没有人对社会关系进行更深层次的分析。因而本文基于社会网络抽取,提出了实体间关系倾向分析,主要是来分析两个实体间的关系定位是对立还是统一关系,各个实体对某个问题的意见是支持还是反对,这类问题在社会安全领域一直是个热点问题。

近年来,有不少研究工作针对多媒体信息中的情感分析[67-75],但是很少有工作是针对文本对象[68-70]。文本信息是一种使用最广泛的媒体介质,可以从很多信息源获得,例如书本、报纸、网页、E-mail等。文本信息不仅使用广泛,而且饱含感情。通过自然语言处理的相关技术,可以获得文本中反应的情感。现在大多数研究主要集中在对整篇文本的情感倾向性进行分析[72-74],在文章和词汇的情感倾向分析方面有了一定的研究基础,但是几乎没有人借助于词汇的情感倾向来分析实体间关系的倾向。因为这涉及如何获得实体之间关系的准确描述。因而本文尝试性提出了基于社会网络抽取的实体间关系倾向分析,目的是更深层次的挖掘文本内容,使得社会网络抽取更加具有现实意义。本文主要定义了三种关系倾向即“对立”、“统一”、“中立”。另外使用新闻语料作为研究对象,是因为新闻可以客观反映各种事实及事实关系,而且其语言比较规范,因而把新闻用作研究对象对研究结果统计更加容易且准确。新闻文档中对某个事件中实体之间的关系通常体现在联系动词上,而不是用描述性词语“好”,“不好”之类的词来主观地描述实体之间的意见,所以本文使用社会网络中联系实体关系的主动词作为分析依据,对新闻中实体的关系倾向进行分析。

方法框架为:首先利用命名实体识别,话语片断分割,主动词分析等手段获得一个社会网络,然后对网络中的关系描述进行基于词典的情感倾向分析,从而得到各个实体之间的关系是对立还是联合。

通过社会网络的构建,已经得到了一篇文档的关系图。它是由命名实体,关系指向,关系描述三部分组成的。下面,根据关系图中对实体间关系描述的情感分析来得到实体间的关系倾向分析。

首先对网络中的关系描述进行基于词典的倾向分析,这里使用知网HowNet的“情感分析用词语集”作为基准词典。如果关系动词在词典中能够找到,那么直接根据其情感分类进行判断,如果词典中不存在,那么需要根据知网提供的语义相似度和语义相关场等功能找到相似的词语,或者直接根据同义词词典,找到相似词语,然后再进行判断。此处使用同义词词典。最终无法在情感分析用词语集中找到的词,定其情感倾向为中性。

得到关系描述的情感倾向之后,需要最终确定实体之间的关系倾向。如果实体之间只有一个关系描述,那么这个关系描述的情感倾向就是实体对之间的关系倾向。如果实体之间存在多个实体描述,需要根据关系描述的主体方向来确定两个实体之间关系倾向。即,如果实体关系之间的描述大多数为对立则关系为对立,反之亦然。(www.xing528.com)

对本书第143页中新闻文章进行分析,得到关系分类之后的结果如表5-5、表5-6所示,其中表5-6,“O”表示“对立”,“C”代表“统一”,“N”代表“中立”,“×”表示两个实体之间没有关系。

表5-5 新闻中关系倾向统计列表(1)

978-7-111-33166-7-Chapter05-22.jpg

表5-6 新闻中关系倾向统计列表(2)

978-7-111-33166-7-Chapter05-23.jpg

本例仅仅以单一文章为例对关系倾向进行分析,其实,借助于对相关主题的一组文档进行关系的抽取及分析,其结果必将更加准确。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈