利用社会网络进行相关处理的前提是构建一个合理的社会网络。虽然以关系作为基本分析单位的社会网络分析(Social Network Analysis)已经在社会学、教育学、心理学与经济学等诸多学科领域得到了广泛研究[3]。但是在统计学和计算科学领域对如何自动抽取文本中的社会网络的研究并不是很多。而现在采用的方法大多是基于两个实体名字在网络上的共现特征,判断两个实体之间是否存在关系则是通过分析二者在网络中的共现特征的值是否达到了某个预设的阈值。Harada等人[4]采用这种方法开发了一个系统来从网络上获取人与人之间的两两关系。Faloutsos等人[5]则是基于人们之间的共现特征从五十亿网页中抽取了一个由一亿五千万人组成的社会网络。A.McCallum和他的研究小组则提出了一个自动抽取用户间社会网络的系统[6,7]。这个系统从电子邮件信息中识别出不同的人并找到他们的主页,然后把相关信息记录在一个通讯簿中。最后再通过他们的主页信息发现一些其他人的信息,这样在主页的主人与在此人主页中发现的人名之间建立链接并放入社会网络。正在开发中的这个系统的新版本的目标是要发现整个网络中的共现信息。
还有一些研究是应用搜索引擎来发现社会网络。在20世纪中期,H.Kautz和B.Selman开发了一个社会网络抽取系统ReferralWeb[8],这个系统用搜索引擎作为工具来发现社会网络。最近P.Mika开发的Flink系统[9]实现了语义网群落中社会网络的在线抽取与可视化。其实Flink与ReferralWeb进行网络挖掘的机制都是相同的,主要还是通过共现特征来识别实体间存在的关系,只不过这些共现信息是通过搜索引擎来得到的。他们都是首先把两个人的名字X和Y作为查询词输入到搜索引擎中,输入的形式是“XANDY”,如果X和Y之间存在比较强的关系,我们往往能够得到更多的能证明他们之间关系的信息,例如他们主页之间的互相引用,或者两者之间名字并列出现的次数等等。另外通过搜索引擎来度量名字间共现特征的系统还有Matsuo等人开发的POLYPHONET[10,11]。本章我们着重介绍两种社会网络抽取方法。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。