首页 理论教育 基于阈值的资源聚合优化方案

基于阈值的资源聚合优化方案

时间:2023-07-08 理论教育 版权反馈
【摘要】:表5-2列出了以文献遍历权重0.428 1作为阈值时聚合得到的20篇核心文献。13个引用关系对共连接了17篇最重要的文献,且分成了4个相互独立的子网,这个子网也可以认为是聚合。表5-4当引文权重大于等于0.375时的聚合续表表5-517篇文献所对应的主题分布续表最大的一个聚合包含了11篇文献,而其他的子网中则分别含有2篇文献。

基于阈值的资源聚合优化方案

阈值的选取可以根据用户自身的需求进行设定。表5-2列出了以文献遍历权重0.428 1作为阈值时聚合得到的20篇核心文献。表中给出了文献按照遍历权重点的排序、在整个网络中根据时间分布给出的ID、论文的主要信息(第一作者、发表时间、题名和页码)以及遍历权重。根据描述性统计发现,从2007年开始,XML的研究论文数量逐年开始变少,在2007年之后XML研究逐渐走向衰落阶段,但表5-2则显示以2007年为界的两个时间段中,论文的数量基本上一致,这说明2007年之后研究数量虽然变少,但内容的重要性却并没有明显降低。在所有的论文中,由Sebastian Link所撰写,编号11294的文献具有最大的遍历权重,其他两篇遍历权重在0.9以上的文献分别是Shanmugasundaram发表于1999年的论文和Buneman发表于2002年的论文,这3篇文献都是与数据库有关的XML研究,说明与数据库相关的研究起到了衔接整个XML研究历史的作用。

表5-2 论文遍历权重排序(前20)

续表

遍历权重体现每个文献和引用关系对XML发展过程的重要性,因此,遍历值最高的一批文献可以被称为XML发展过程中的核心文献,遍历值最高的引用关系则是核心引用。事实上,核心引用阈值聚合的结果仍旧需要通过文献表现出来。表5-3显示了在选取不同阈值的情况下聚合的引用关系和文献。由于在整个数据集中只有6 658篇文献被引用或者引用了其他的文献,因此在选取最小的引用关系遍历权重0.000 257作为阈值时,只能聚合6 658篇文献,其他处于孤岛位置的8 840篇文献被排除在外。虽然这些文献中有的绝对被引值很高,但事实上与XML主题之间的实际关联很小,阈值聚合的结果基本上都排除了这些文献,因此,大大提高了最终获取文献的相关性程度。

表5-3 网络中遍历权重分布

每个引用关系都联系了两篇文献,即一篇施引文献和一篇被引文献,因此在对引用关系进行阈值聚合的同时也获得了相应的一批文献。表5-4中列出了引文遍历权重0.375作为阈值时得到的文献聚合结果,表5-5是这些文献所对应的主题分布。13个引用关系对共连接了17篇最重要的文献,且分成了4个相互独立的子网,这个子网也可以认为是聚合。通过对比发现,只有11篇文献(论文ID:176、2243、13654、13805、8402、11294、11434、12915、13643、14070、14938)的遍历权重排在前17位,这说明对引用关系采用阈值聚合的结果事实上与文献遍历权重聚合是存在区别的。

表5-4 当引文权重大于等于0.375时的聚合(www.xing528.com)

续表

表5-5 17篇文献所对应的主题分布

续表

最大的一个聚合包含了11篇文献,而其他的子网中则分别含有2篇文献。结合LDA主题模型所抽取每篇文献语义主题分布,可以分析上述4个聚合中的主题语义和主要内容,首先计算文献在每个语义主题的相对权重,即将遍历权重乘以原始的文献在语义主题上的权重,进一步的,将主题按照权重从高到低进行排序。由于每篇文献所包含的主题可能非常多,但同时会存在侧重,因此可以以累计权重80%为依据选取文献所包含的语义主题。17篇文献的语义主题分布如表5-5所示,表中截取的即每篇文献在相对权重累计到80%时所包含的那些主题。

子网1中的2篇文献发表年代较早,研究内容主要集中于XML组织与正则语言,例如采用DTD(Document Type Definition)的方式等。子网2中,论文6003讨论了合并XML格式数据的基础,而论文11413则提出了一种名为“PORSCHE”的方法用来解决论文6003中提到的n:m复杂图中的数据合并问题,都是和XML数据融合与文档处理相关的研究。子网3中的2篇论文则主要研究DTD和XML Schema的相似性问题,都是与XML的格式标准和XML应用于高性能计算方面相关的内容。由于这3个子网中包含的论文数量非常少,因此可以十分精准地定义其研究内容。

子网4中包含了11篇文献,这些文献主要由德国克劳斯塔尔工业大学的Sven Hartmann教授和新西兰奥克兰大学的Sebastian Link副教授所撰写,其中以Sven Hartmann为第一作者的文献共4篇,以Sebastian Link为第一作者的文献有5篇,并且也出现在了其他6篇文献的作者列表中,这说明Sebastian Link的研究在整个XML的研究历史中起到了很重要的知识传承作用。从上述文献的主题分布上来看,这11篇文献的研究主题主要针对数据库中的值依赖、函数依赖和多重依赖问题,这些问题主要与数据库中的语义表达相关。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈