首页 理论教育 数据网络中相似性度量的研究

数据网络中相似性度量的研究

时间:2023-06-24 理论教育 版权反馈
【摘要】:数据网络上节点之间的相似度一般采用某种相似性度量方式进行计算,传统的有基于节点间链接关系的Personalized PageRank[26]、 SimRank 2等。Sun等人提出了一个基于元路径的相似性函数PathSim[4] ,该函数能够捕获异质网络中节点对间的语义相似性,实验表明,该函数相比上述相似性度量具有更好的效果[4]。

数据网络中相似性度量的研究

数据网络上节点之间的相似度一般采用某种相似性度量方式进行计算,传统的有基于节点间链接关系的Personalized PageRank(PPR)[26]、 SimRank( SR ) 2等。PPR用随机游走策略计算从源节点到目标节点的概率;SR是为衡量结构性上下文(structural-context)的相似性而提出的,基于假设:如果两个对象分别和其他相似的对象相似,那么这两个对象相似。然而,它们都忽视了在异质网络中不同路径所表达的语义信息。并且,它们偏重于高可见的对象(即具有大量路径的节点对象)或是高密集的对象[4]。虽然相似性度量ObjectRank[28]和PopRank[29]考虑了异质关系可能对节点间的相似性衡量产生影响,但它们仅给出使用固定权值的所有可能路径的特定组合。Sun等人提出了一个基于元路径的相似性函数PathSim[4] ,该函数能够捕获异质网络中节点对间的语义相似性,实验表明,该函数相比上述相似性度量具有更好的效果[4]。但是,该函数由Dice相似性系数派生,对应的距离函数不具有三角不等式性质,这限制了在该相似性定义下的相似性查询等挖掘任务效率的提升。例如,不支持常用于加快大量数据间相似度计算的LSH (locality sensitive hashing)技术[30]。因此,有必要研究新的相似性度量函数,既要捕获异质网络中蕴含的语义,又要考虑对大数据集上挖掘优化技术的支持。(www.xing528.com)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈