首页 理论教育 改进后的地理实体语义相似度测度模型:重要因素在概念属性

改进后的地理实体语义相似度测度模型:重要因素在概念属性

时间:2023-05-18 理论教育 版权反馈
【摘要】:由此可知,概念的属性是决定语义相似度的重要因素。

改进后的地理实体语义相似度测度模型:重要因素在概念属性

1.影响实体语义相似度的因素

(1)概念的属性:在本体结构中,概念的属性对于概念的定义具有十分重要的作用,而概念对相似度的影响又起到决定作用。由此可知,概念的属性是决定语义相似度的重要因素。当两个概念拥有的相同属性越多,表明这两个概念间的语义相似度越大。用函数att(S)表示实体S属性的集合,函数att(F)表示实体F属性的集合,函数Count()表示统计出的属性个数,则概念属性的相似度计算公式为:

需要指出的是,当所计算的地理实体的某种相应的性质不存在时,那么谈S、F在该性质上的相似度就失去了意义,此时不用表示S、F在该性质上的相似度,也不用确定权重

(2)语义距离

语义距离是指本体结构中任意两个概念节点之间的最短路径长度,可记为Dist(S,F)。传统的语义距离的计算大多忽略有向边的权重或直接将有向边的权重设为1,再利用最短路径算法(最常用的算法是Dijkstra算法)来计算语义距离,而没有考虑有向边权重的影响,从而使语义相似度的计算结果受到一定的影响。因此,为了使语义相似度的计算结果更加准确,通过以下三种权重因子把有向边的差异程度定量化地表现出来。

①概念之间的关系。每对概念之间都存在一定的关系,如果在计算语义距离时不考虑这个因素,就可能对语义距离计算中权重的计算产生影响。因此,在探究权重对语义距离的影响时,应充分考虑概念间的关系类型。同义、继承、整体与部分三种基本关系在基于土地利用类型的本体结构关系中出现的频率较高,并且由于这三种关系能很好地反映人类对本体结构的认知,因此被广泛地研究和应用。

当两个概念间具有同义关系时,它们具有相同的语义相似度,而同义关系对语义相似度的贡献明显强于继承关系及整体与部分关系(李兆龙等,2012)。因此,可以得到概念间的关系与有向边权重的如下关系:

式中,WeightType(S,F)是概念的不同类型对应的语义距离的权重,即概念节点S与其父节点概念F之间关系类型对语义距离中权重的影响;同义关系、继承关系、整体与部分关系、其他关系依次为1、0.8、0.5、0.1。式(3-6)中的关系所对应的权重一般由领域专家给出。

②概念的深度。在进行语义相似度计算时不仅要考虑两个概念的最近公共父节点的深度,而且还要考虑要比较的概念在本体结构中所处层次的深度。进行比较的两个概念节点以及它们的最近公共父节点在本体结构中与根节点距离越大,其概念所表达的意义就越具体,概念之间所具有的共同特征就越多,两概念的语义相似度就越大(张兰芳等,2012)。所以概念在本体结构中所处的深度是计算语义距离的权重要考虑的另一个因素。于是,这里给出概念的深度与有向边的权重之间的关系:

式中:设根节点的深度为0,则WeightDepth(S,F)是概念节点S、F之间的语义距离权重,节点C为概念节点S与概念节点F之间的最近公共父节点,函数depth()为相应概念节点到根节点之间的距离,而depth(tree)则表示整个本体结构中的最大深度。

③概念的密度。概念密度是指这个节点的直接子节点的个数与本体结构中有最多子节点的父节点的子节点个数的比值,这里用Density()函数表示。在本体结构中,不同的分支概念节点的子节点数是不同的,某一局部的节点分类越细,密度就越大,说明此处概念的分类越详细,对应的有向边的权重就越大,那么对应的语义相似度就越大(张艳霞等,2012)。以图3-4所示土地利用分类的本体结构图为例,由于“农用地”节点和“建筑用地”节点处在同一层次中,而“农用地”节点处的细化程度要大于“建筑用地”细化程度,说明“农用地”节点密度大,因此它的直接子节点之间的语义相似度要大于“建筑用地”节点的直接子节点的语义相似度。因此,引入密度对语义距离的影响。概念S、F的密度对有向边权重的关系表示为:

图3-4 基于本体结构的部分土地利用分类图(www.xing528.com)

式中:WeightDensity(S,F)表示概念节点S、F之间有向边的权重关系,density(max)表示本体结构中各节点密度的最大值。

综合以上三个方面的权重因子,得到有向边权重的公式如下:

其中,α、β、ɤ是可调节因子,且α+β+ɤ=1。尤其在节点存在等价关系时,权值达到最大为1,因此有必要对公式(3-9)进行改进,改进后公式如下:

由于有向边权重的大小与概念节点间的距离成反比,即有向边的权重越大,两概念节点间的距离越短,权重大小与有向边语义距离的关系如下:

综上所述,可得到改进的语义距离相似度计算方法:

式中,μ为可调节因子,且为大于0的实数

2.综合语义相似度计算

在对语义相似度的影响因素进行分析的基础上,改进的算法思想为:在本体结构中,将概念间的关系、深度及密度等影响有向边权重的因子考虑到语义距离的计算中,采用加权计算概念间的语义距离;同时将基于语义距离的方法与基于属性的方法相结合,从而更加全面地量化本体结构中实体之间的语义相似度。综合上述各方面因素,可以得到概念的语义相似度计算的公式为:

式中:ω1+ω2=1,且ω1、ω2大于0的实数。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈