异质数据网络挖掘目前仍是一个新起的研究领域,还有许多工作需要开展,具体研究内容包括:
1)异质数据网络相似性度量的设计
相似性是衡量数据对象之间的关系、研究数据和分析数据的基础。如何定义异质网络中节点间的相似性是异质网络挖掘研究的核心问题,直接影响着挖掘结果的质量。在异质数据网络分析中,路径隐含了语义信息,是度量节点间相似性的重要因素之一。相似性度量的设计需要结合路径因素,然而,路径的组合非常巨大,需要有相应的路径选择指导策略,并且,用户通常没有足够的背景知识来选择合适的元路径或它们的组合,因此,如何设计新的异质网络相似性度量和相似性计算的优化策略,为异质数据网络上的数据挖掘任务提供高效支持,是需要解决的一项关键技术。
这部分的研究工作重点考虑了大数据的异质性、巨量性的特点,具体工作包括:相似性的定义、相似性计算、相似性函数的性质和评估等。
2)异质数据网络相似性查询算法研究
在线相似性查询不仅要求查找相似对象的结果具有高准确度,而且还要求有更快的查询响应时间。处理速度快是大数据区分于传统数据技术的显著特征之一,在大数据环境下,对查询的处理速度、响应时间提出了更高的要求,也面临着更多的挑战。
这部分的研究内容致力于解决异质网络中在线相似性查询的准确性和时效性,实现在线查询的快速响应,包括相似性查询算法的设计和优化。
为了在度量节点间相似性时结合路径背后的语义信息,可以给出表示路径起始类型和终止类型之间复合关系的矩阵形式,即一条路径包含三方面的信息:起始类型、终止类型和关系矩阵。起始类型定义问题域,终止类型和关系矩阵共同定义节点的特征。这三者中只要有一个发生变化,从关系中抽取出的节点特征就会随之发生变化。对路径而言,其特征向量的维数通常是很大的,在如相似性查询、相似性连接等相似性计算情况下的精确结果将变得十分困难。于是,为提高相似性查询的响应速度,可以采用近似方法,在效率和准确率间进行折中,即将精确问题转化成近似问题。位置敏感哈希(LSH)函数常用于解决高维空间中的近似最近邻问题,即引入LSH为数据集建立索引,根据LSH性质,只在查询对象所在的桶中查找相似对象。但这样的方法为保证较高的准确率,需要在多张哈希表中重复查询,哈希表的个数t通常很大,基本LSH相似性查询的空间复杂度将很高。为克服这个缺点,需要采取LSH相似性查询的扩展方法,即在一张哈希表中探查多个桶。通过提高每张哈希表的利用率,以减少所需哈希表的数量。通过设计相应的优化策略以减少相似度计算的数量,提高相似性查询的效率。
LSH满足这样一种特性:在目标距离度量下较近的两个对象被映射到同一个值的概率较大;相反地,在目标距离度量下较远的两个对象被映射到同一个值的概率较小。不同的距离度量有不同的LSH函数。然而,并非所有的相似性度量都有符合位置敏感哈希模式的LSH函数族。由于Dice系数对应的距离度量不满足三角不等式,所以它没有相应的LSH函数族。考虑到Dice系数是PathSim在元路径长度为2时的退化形式,可以推断,PathSim也不支持LSH。 PathSim的这个缺点限制了它在LSH索引中的应用。因此,为提升异质网络数据上的相似性查询效率,需要在相似性度量上进行改进。
3)异质数据网络相似性连接算法研究(www.xing528.com)
相似性连接是从一个或两个数据集中查找出所有相似的对象对(从一个数据集中查找出所有的相似对象对称为自相似性连接)。相似对象对既可以指相似度不小于阈值的对象对,又可以是按相似度从大到小排序后的前k个对象对。数据网络的相似性连接有许多重要应用,然而,现有的相似性连接算法都是针对同质网络的,没有考虑异质网络中隐含的语义信息。虽然相似性连接通常不是在线需求,但是由于数据量巨大,并且相似性连接问题本身涉及庞大的计算量,因此,有必要设计异质网络相似性连接优化技术,以提升相似性连接算法效率。
这部分的研究内容包括相似性连接算法的设计,并针对大数据巨量性特点,设计相似性连接算法的优化技术。
相似性连接也可采取基于LSH的优化技术。最基本的策略是认为相近的节点对象会被哈希到相同或相近的桶中,这样可以忽略不同桶中节点形成的节点对。但是这样的方法也需要大量的哈希表,复杂度较高。因此,除了在同一个桶中查找相似节点对,可以在相近的桶中进行查找,过滤距离较远的桶中的节点形成的节点对。但是相近桶中仍然存在一些节点对不可能出现在最后的结果集中,为解决该问题,可以根据相似性度量的性质设计剪枝优化策略,建立扩展的LSH索引,以减少节点对候选集的大小,通过采取这样的优化技术设计有效的相似性连接算法[18]。
4)异质数据网络特异群组挖掘算法研究
目前已有关于异质数据网络的聚类、分类等挖掘任务的研究,聚类是将数据集中大部分数据对象划分成若干簇的过程。特异群组中的对象也具有相似性,在一定程度上符合传统簇的概念,但是特异群组之外的对象数目远大于特异群组中对象的数目,并且这些对象不属于任何簇,这和聚类的目的是不一致的。大数据具有价值高但价值密度低的特性,特异群组是一类低密度、高价值的数据(仅有少部分对象是相似的)。特异群组挖掘任务目前还没有关于网络数据集上的探索研究。
这部分的研究内容包括探索异质网络特异群组挖掘问题的数学模型、特异性度量的定义,并针对大数据高价值低密度的特性,设计特异群组挖掘算法优化技术,如剪枝策略、建立索引机制、采取一定的并行方案等。
5)异质数据网络挖掘算法应用领域研究
异质数据网络应用领域广泛,例如,医疗、生命科学、社交网络等具有大数据基础的领域,需要在利用数据挖掘算法处理大规模数据所具有的高性能的同时,探讨算法在实际领域的应用,验证算法的有效性,解决算法的设计与特定应用中的领域知识相结合的问题,以提高异质数据网络挖掘算法的适用性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。