首页 理论教育 概念信息量算法:有效扩展普适地理信息服务匹配

概念信息量算法:有效扩展普适地理信息服务匹配

时间:2023-09-25 理论教育 版权反馈
【摘要】:对于给定的两个概念,寻找具有最大信息量的父节点概念。概念间的语义相似性可以用下式表示:由式(6-2)中的定义以及概念层次树的结构特点可以看出:如果概念之间有多个共同的父节点,那么可以表达概念之间语义相似性关系的节点层次最接近底层,例如图6-10中,Motor Vehicle和Vehicle都是Car和Bus概念的共同父节点,但显然Motor Vehicle的信息量可以作为Car和Bus的语义相似性度量。

概念信息量算法:有效扩展普适地理信息服务匹配

概念信息量算法是基于信息论模型的语义相似性计算方法(Resnik,1995),通过两个对象o1和o2的概念之间所包含的共有信息量来衡量它们之间的语义相似性,即共有的信息量越多,它们之间的语义相似程度越高。其计算过程可分为两步:

(1)计算层次结构树中各个概念的信息量。根据信息理论,一个信号源c的信息量为:

式中,c表示层次结构树中的概念,P(c)为出现的概率值;关于P(c)的取值,不同的研究有不同的方法,主流的研究均采用概念c在本领域内文献中出现的概率,也可以理解为在领域内使用到概念c的实例的概率。根据公式(6-1),信息量是概念出现概率的递减函数,我们可以这样理解:随着概念概率的减少,信息量增加,即越具体的概念,信息量越多,反之亦然。特殊情况下,如果层次结构树上只有一个概念,即只有一个根节点,那么它的信息量为0。

图6-9 语义相似性的四种类型

这与概念层次树的自身结构有关,由于本书中提到的概念层次树仅考虑概念之间具有上下义的包含关系(IS-A关系),如果一个概念C包含若干个子概念c1,c2,……,cn,那么P(C)大于等于任何一个子概念的概率P(ci),因此它的信息量也小于等于任何一个子概念的信息量。

(2)对于给定的两个概念,寻找具有最大信息量的父节点概念。

两个概念所共有的信息量越多,则它们之间的语义相似程度越高,而共有的信息量是由同时包含这两个概念的父节点概念所决定的,根据(1)中的分析:具有最大信息量的父节点同时也是最具体的父节点,如果两个概念没有共同的父节点,那么它们的相似程度为最低。概念间的语义相似性可以用下式表示:

由式(6-2)中的定义以及概念层次树的结构特点可以看出:

(1)如果概念之间有多个共同的父节点,那么可以表达概念之间语义相似性关系的节点层次最接近底层,例如图6-10中,Motor Vehicle和Vehicle都是Car和Bus概念的共同父节点,但显然Motor Vehicle的信息量可以作为Car和Bus的语义相似性度量。

(2)概念c1和c2共同概念父节点在层次结构树中的层次越底层,它们的语义相似性也越强。这与概念层次结构树中的一般规律相一致,即概念的层次越靠近底层,它们之间的语义相似性越大。以图6-10为例,Bus和Car之间的语义相似性要比Motor Vehicle和Wheeled Vehicle之间的语义相似性高。(www.xing528.com)

这种方法的缺点在于,认为最具体共有概念相同的概念之间语义相似性是相同的,无法进一步区分这些概念之间的语义相似程度。例如图6-10中,(Bus,Bicycle),(Bus,Wheeled Vehicle)的语义相似性是相同的,因为它们具有共同的共有概念Vehicle,显然这不符合人们的认知常识

对于这一问题,又有研究者提出相应的改进方法,在考虑概念所共有的父节点概念的同时,加入对差异信息量因素(Lin等,2000)的考虑,利用两个概念的信息量之和对它们共享概念的信息量进行规格化,从而避免上述问题。

概念信息量法特点:

(1)基于信息理论模型,对于概念的层次结构树的结构特征如概念间的路径距离、概念层次及密度等依赖性不强,仅基于各概念在文本统计中出现在概率统计来计算其信息量作为子概念间语义相似性的依据;

图6-10 概念层次结构树片断(以交通工具为例)

(2)缺陷主要体现在信息量的获取方式,通过计算某概念在文本中出现的概率来计算,这种方式也会较大程度影响语义相似性的准确性。这是因为:

①很难完全统计概念在所有文本集中出现的概率,而文本集之间的差异较大,只选择部分文本集作为统计依据对于概念的概率影响较大,并最终影响其语义精确度

②同一个概念所使用的词汇可能是多义词,例如School既可以表示大学里面的学院,又可以表示中学,而在对这一概念进行文本统计的时候难以详细区分具体的语义概念,因此会严重影响其统计概率;

③多个词汇所表达的概念可能是同一个,例如对于一些专业术语而言,在不同的文本集中,可能使用缩写词汇表示,可能使用全写词汇表示,也可能在词汇表达方面具有不同的形式;

④在概念的层次结构树比较复杂,规模较大的时候,对于每个概念进行信息量的计算工作量太大,消耗计算资源过多。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈