首页 理论教育 基于命名实体检索结果的社会网络构建-新闻信息处理技术

基于命名实体检索结果的社会网络构建-新闻信息处理技术

时间:2023-11-23 理论教育 版权反馈
【摘要】:此方法主要利用待检索的中文人名在搜索引擎上返回的Snippet进行社会网络构建[13]。这里的Snippet包括检索结果的标题以及紧随的片断文本。由于是利用人名A的社会网络来对人名A检索得到的有效Snippet进行重名消解,关系矩阵M中不包含人名A。限于检索一个人物获得的有效Snippet数量有限,这样得到的关系矩阵往往会比较稀疏,形成的社会网络图中有很多的孤立子图,事实上有些子图之间在真实的网络环境中又是有关系的。

基于命名实体检索结果的社会网络构建-新闻信息处理技术

此方法主要利用待检索的中文人名搜索引擎上返回的Snippet进行社会网络构建[13]。这里的Snippet包括检索结果的标题以及紧随的片断文本。社会关系建立在至少两个人物的基础上,所以本方法中定义有效Snippet为包含至少两个不同人名的Snippet。系统最后的聚类对象就是这些有效的Snippet。

以检索人名A为例,初始检索返回一组Snippet,抽取每个Snippet中的人名。假设任何两个人名共同出现在某个Snippet中就认为两人具有社会关系,共现的次数作为这种关系的度量。从而可以对出现在所有Snippet中的人名构建关系矩阵M,矩阵元素Mij,表示人名i和人名j的共现次数。由于是利用人名A的社会网络来对人名A检索得到的有效Snippet进行重名消解,关系矩阵M中不包含人名A。

限于检索一个人物获得的有效Snippet数量有限,这样得到的关系矩阵往往会比较稀疏,形成的社会网络图中有很多的孤立子图,事实上有些子图之间在真实的网络环境中又是有关系的。例如图5-3中的人名A初始关系图。本方法希望借助更多的网络信息,对孤立子图进一步扩展,来丰富初始的社会关系网络。

978-7-111-33166-7-Chapter05-3.jpg

图5-3 人名A初始关系图

拓展方法是在初始关系图中找出所有连通子图,然后依次在每个子图中选取最能够代表该子图的节点来进行拓展检索,在此引入带权度(Weighted degree)来衡量扩展节点的重要程度。带权度即为与该节点相连接的所有边的权值之和。这是基于以下两种假设:

(1)与节点相连的边越多,说明该节点在这个网络中交际的范围越广,影响力越大。

(2)边上的权值越大,说明该节点与相连节点共现的频率越大,二者的关系越紧密。

利用带权度将以上两点结合起来。可以采用两种不同的拓展方式:

(1)单点拓展:选取子图带权度最大的一个节点;(www.xing528.com)

(2)两点拓展:选取子图中带权度最大的两个节点。

假设子图X中带权度最大的节点名为人名B。为了拓展出来的人物尽量都和初始检索的人名A有关,每次拓展检索时Query都包含人名A,例如对子图X扩展时,检索Query为[“人名B人名A”]。拓展检索时,选取除人名A和人名B外至少包含一个人名的Snippet。将拓展得到的所有Snippet直接加入到初始检索到的Snippet集合中,采用构建关系矩阵M的方法重新构建新的包含更多人名的关系矩阵M′。显然,M′比M包含更多的人名和社会关系,使得M的社会关系网络进一步丰富与完善。

对于初始社会网络的拓展有如下两种处理方法:

(1)平均拓展。矩阵M′中会引入很多初始检索中不包含的人名,剔除这些新引入的人名得到的矩阵为M″。在M″中,如果两个人物不认识(对应关系数为0),但同时M′中有很多人同时认识他们,则可以利用两个人物之间的中间人来求取两个人物的关系数。平均拓展采用M′中两个人物的中间人的关系数平均值来进行更新。例如,M″中,对于任意两个人名abab)如果Mab=0,但M′中存在人名n1n2nm同时满足Mani≠0且Mbni≠0,则更新Mab

978-7-111-33166-7-Chapter05-4.jpg

这样更新得到的新矩阵M″将拓展M中人名之间的关系,并且将原来没有直接相邻的节点之间的关系数进行更新,可将初始图中不连接的若干子图连接起来。

(2)最大拓展。考虑现实世界中的两个人物,如果有一位中间人与他们的关系都非常密切,这两个人的关系就应该很密切;如果此时还有一位和这两个人虽然认识但是关系很不密切的中间人,也不应该使得这两个人的关系数减少。事实上,方法1中取平均的方法就可能存在这样的问题,这里利用两个人物之间关系最为密切的中间人来进行关系数更新。更新方法类似于方法1,只是更新公式变为(5-2)。

978-7-111-33166-7-Chapter05-5.jpg

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈