首页 理论教育 基于相对值的作者语义聚合策略

基于相对值的作者语义聚合策略

时间:2023-07-08 理论教育 版权反馈
【摘要】:图6-10作者互引网络聚合的可视化结果表6-7作者互引网络聚合的语义主题分布续表聚合1侧重于数据库中XML的性能方面的研究,例如通过模式匹配等手段支持查询,同时通过制定相应的规则减少文档中的冗余。

基于相对值的作者语义聚合策略

为了与作者关联网络的相关性研究相对应并保证不同网络之间聚合结果的可比性,本节依旧以上述的380名作者为样本进行研究。表6-5显示了6种类型网络中边的数量及网络整体的密度。由于6种网络都是由380个作者节点所组成的,因此不存在因规模变化对密度产生的影响。6种网络中除了作者合作网络外其他几种密度均非常大,常规的网络分析中,许多专家认为如果是进行微观的研究,100数量级及以上规模的网络如果密度较大,很难通过可视化的方式对细节进行描述[22]。而且从聚合的角度来说,用户对于信息的接受能力是有限的,如果将这些网络结构呈现给用户,明显无法满足用户对于资源聚合的需求,因此采用相关的聚合发现方法有重点地为用户提供作者集合显得尤为重要。在聚合实施过程中,这里同样采用相对值聚合算法进行结构发现,并进一步结合作者主题语义挖掘的结果进行揭示。由于作者群体数量规模相对较小,因此在聚合实施过程中规模阈值均选定为3~15。

表6-5 网络的规模和密度

(1)合作网络的语义聚合

图6-9是利用基于加权PageRank的相对重要性算法进行合作网络聚合的可视化结果。380名作者中,通过相对值聚合共有70名作者被发现,这些作者共构成了9个聚合,表6-6给出了这些聚合对应的语义主题分布。

图6-9 合作网络聚合的可视化结果

表6-6 合作网络聚合的语义主题分布

续表

从9个聚合的规模来看,规模最大的是编号为3的聚合,其中共包含了12名作者,以Abiteboul S和Ceri S为代表的这个作者聚合研究的共同语义主题主要集中在XML查询语言和结构性查询等内容。事实上,Abiteboul S是这个聚合中原始的网络PageRank权值最高的作者,他发表的大量文章都是关于分布式系统和分布式设计的内容,对于语义主题18-XML与服务器系统,他更是最典型的作者,而在聚合3中XML与服务器系统所占比重并不高。通过分析更多作者的研究可以发现,他们发表的成果名称虽然涉及面很广,但是其共同的特点则正如聚合结果中展示的那样,主要集中于XML查询、元素查询、XML数据库和数据操作、XQuery语言上,大多是利用这些工具进行研究。规模排在第二的是聚合6,共包含了11个作者,Ling T W是这些作者的典型代表。Ling是新加坡国立大学计算机系的教授,也是本数据样本中发文量最大的作者之一,共有56篇文献。这个作者群体的研究内容主要集中在数据库环境下的XML组织和相应的数据模型和标准,并在此技术上实现XML信息检索。聚合9是包含作者数量规模第三的聚合,其中共有9名作者,他们的研究内容主要集中在信息检索和XML,相对于前文提及的两个聚合,这个聚合中的研究人员倾向于更加泛化的信息检索问题,而不仅仅集中在XML信息检索的研究上。此外,主要是检索方面的聚合还包括了聚合5、聚合8,聚合5中的作者群体在XML信息检索的大背景下更专注于数据和文档的结构问题,而聚合8中的作者群体则更加注重文档和数据的操作。

聚合1与聚合2均包含了6名作者,聚合1的作者群体的研究主要侧重于XML应用方面的研究,例如Web Service的规范、开源系统和软件的开发,聚合2是XML在化学领域的应用等内容。聚合4和聚合7包含的作者群体在多媒体上都具有较高的权重,但是两者也有略微的差别,聚合4中的作者更侧重于如何利用XML进行多媒体数据的表达、存储和管理,而聚合7中作者的研究内容则增加了一些与应用和服务相关的语义主题。通过上述聚合的主题语义分析,可以发现利用相对值聚合方法对合作网络进行聚合,并辅助以语义主题对内容进行挖掘十分有效,虽然某些作者都是属于相近或类似的研究领域,例如聚合3、聚合5、聚合6、聚合8和聚合9中的作者都和XML、信息检索领域相关,但是其细微的差别在语义主题的分布中能够很好地被识别。

(2)互引网络的语义聚合

图6-10是作者互引网络语义聚合的可视化结果。通过相对重要性聚合算法,共有7个聚合被发现,其中共包含了49个作者,规模略小于合作网络的聚合结果。表6-7给出了这些聚合对应的语义主题分布,在这些聚合中,规模最大的是聚合3和聚合7。聚合3是关于信息检索和XML检索的研究群体,其结构和合作网络分析结果中的聚合9十分类似,且两者之间权重值最高的几个作者都相同,分别是Lalmas M、Kamps J、Fuhr N和Trotman A,这说明这几位作者是信息检索和XML检索研究的核心群体,且这些作者在合作和引用上都高度相关。聚合7中共包含了13个作者,典型代表人物包括Abiteboul S、Hartmann S、Neven F等人,这个聚合中的作者的主题语义主要分布在XML表达、XML组织和文档结构上,与合作网络中Abiteboul S所在的聚合3相比,两个聚合中基本上没有作者重合,但是两者所反映出来的主题并没有太大的差异。其他几个规模较小的聚合中,聚合2和聚合5也是与信息检索相关,但聚合2和其他聚合具有明显差别,在聚合2中的作者均十分关注语义网的相关技术,例如本体等语义表达方法,而聚合5仍旧是传统的XML文档检索研究。

图6-10 作者互引网络聚合的可视化结果

表6-7 作者互引网络聚合的语义主题分布

续表

聚合1侧重于数据库中XML的性能方面的研究,例如通过模式匹配等手段支持查询,同时通过制定相应的规则减少文档中的冗余。聚合4的研究明显是直接针对XML数据库,包括了数据管理、数据操作、存取安全和策略等研究,特别是其中的典型代表Bertino E,她是美国普渡大学计算机科学教授,在数据库系统信息安全领域取得了许多重要的成果,且在整个作者互引网络聚合中,其结构性权重也十分高,发文数量也特别多。聚合6的情况也与之类似,虽然聚合6所包含的作者数量不多,只有4人,但在整个作者群体中,这4个研究人员均具有很高的权重。例如Murray-Rust P是剑桥大学化学系的研究人员,但其研究的主要内容则集中于将信息和计算机技术应用于化学,并开发了Chemical Markup Language(CML)用于分子科学数据的存储和管理。然而从XML的领域来看,其所在的研究群体的研究主要集中XML的应用,附带设计文件管理等研究内容。

(3)共被引网络的语义聚合

图6-11 作者共被引网络聚合的可视化结果

图6-11是作者共被引网络语义聚合的可视化结果。其中共包含了8个聚合56名作者,表6-8给出了这些聚合的规模和语义主题分布信息。从规模来看,聚合8中包含了最多的作者,这个作者群体与作者合作网络中的聚合3很类似,同样是XML和信息检索相关语义主题占主要内容,且其中的作者群体和合作网络也有很多交叉。包含8个作者的聚合共有三个,分别是聚合2、聚合3和聚合6。聚合6中的主题也是XML和信息检索,从可视化效果中我们可以发现,聚合6中和聚合8中的作者节点都较大,说明在网络中的权重较大,即这两个作者群体是最有影响力的群体,进一步说明XML和信息检索是本领域研究最重要的主题。而聚合2中所包含的即以Murray-Rust P为代表的将XML应用于其他领域的作者群体,相较于互引网络,这个群体与XML在领域上的集中程度和相关度更高。聚合3中包含的8个作者同样是XML在其他领域的应用,但与聚合2不同的是,Dolin R H在这个群体中的重要性程度非常高,而其本人是一个医学信息管理专家,因此医疗健康信息管理语义主题在这个聚合中的比重很高。但是其他作者则并非这个领域的专职人员,而是广泛涉猎XML数据结构、信息交互、XML文档处理等领域,这种组合充分突出了XML到底是哪些研究被应用于外领域。

表6-8 作者共被引网络聚合的语义主题分布

(www.xing528.com)

续表

其他几个较小的聚合分别包括聚合1、聚合4、聚合5和聚合7。聚合1中的作者群体在语义网上的权重很高,其研究也十分集中,即利用语义网和本体等知识技术进行内容管理,同时也实现网络服务;聚合4中的作者的语义主题则主要集中在XML在数据库中存储和传输数据的性能;聚合5中的作者的语义主题集中度很高,仅6个主题已经覆盖了其语义主题总权重的80%,其研究内容就是数据集成(data integration);同样的,聚合7也表现出了类似的特征,5个主题就覆盖了总权重的80%,其共同被他人引用的研究内容主要是支持移动环境下数据传输和检索的XML数据结构。

(4)文献耦合网络的语义聚合

图6-12是作者文献耦合网络的聚合结果,其语义主题的分布如表6-9所示。文献耦合网络聚合的结果中共包含了9个聚合61名作者。聚合9和互引网络中的聚合7十分类似,是关于XML表达、XML组织和文档结构的作者群体,且这个作者群体与互引网络的相似性更高。这里的聚合7和聚合5的相似性程度较高,主要是关于XML信息检索的研究内容。而聚合4、聚合6、聚合8则是更为泛化的信息检索研究内容。医学信息管理出现在了聚合1中,然而这个群体与之前出现的医学信息管理主题分布不同,和作者共被引网络的结果不同,虽然这个作者群体的语义主题分布同样表现出基础(即语义网络、系统支持、标记语言)和目的(医学信息管理),但是这群作者群体中所包含的就是以Dolin R H为代表的一群医学信息专家,他们所有的研究都集中于健康和临床领域的数据描述和信息交换的研究,他们综合运用了本体等知识基础支撑自己的研究。聚合3也是一个XML应用于外领域的典型代表,除了前面几个网络聚合出现的Murray-Rust P以外,其他的几个重要节点包括伦敦帝国学院(Imperial College London)计算化学教授Rzepa H S、(威尔士)阿伯里斯特维斯大学(Aberystwyth University)计算机系专家、Murray-Rust P的主要合作者Gkoutos G V等人,同样和聚合1类似,这个聚合中的研究人员的研究主题在XML与化学领域的应用集中程度很高。此外,聚合2则与合作网络中的聚合1、共被引网络中的聚合4十分相似,是关于XML文档描述,数据传输中的协议、安全的主题的研究。

图6-12 作者文献耦合网络聚合的可视化结果

表6-9 作者文献耦合网络聚合的语义主题分布

续表

(5)关键词耦合网络的语义聚合

图6-13是作者关键词耦合网络语义聚合的可视化分析结果,对应的,表6-10给出了这些作者聚合的语义主题分布。

图6-13 作者关键词耦合网络聚合的可视化结果

表6-10 作者关键词耦合网络聚合的语义主题分布

续表

在作者关键词耦合网络的聚合结果中,共出现了8个作者聚合。其中规模最大的是聚合8,共包含了8名作者,其研究的主题语义主要分布于数据库中的XML组织,其目的就是为了实现XML检索,一如前面4种网络类型的语义聚合结果,这个聚合同样是作者关键词耦合网络中最为突出的一个部分。比较有意思的是,通过一系列不同网络分析发现,无论是在合作、引用还是耦合环境下,这个群体的规模也一直都是最大的。其他聚合的规模都比较小,其中聚合5共包含了5个作者,其代表作者是澳大利亚昆士兰科技大学的计算机系副教授Nayak R,其研究主要集中在XML文档处理和检索,特别是文档聚类和模式匹配,另一个典型代表作者Tran T是Nayak R的同事,其研究内容也是关于XML文档检索,因此这个聚合的语义主题分布主要集中在XML查询、元素查询,文档结构和信息检索上。相对来说,聚合4中的4名作者更侧重于数据库环境下的XML组织和相应的数据模型和标准,并在此技术上实现XML信息检索。其他的5个聚合规模都为3,聚合1中的3名作者语义主题主要集中在半结构化文档和数据的描述、表达与组织,并在此基础上实现集成,进行文件管理。聚合2中的3名作者的研究主要集中在利用本体等语义网技术进行内容表示,并实现多媒体数据的描述和交互;聚合3中的研究人员的语义主题主要集中于信息检索的多个方面,例如针对不同类型的文档结构的检索方法,多媒体信息检索和XML信息检索评价等,他们的成果中许多都与Initiative for the Evaluation of XML Retrieval这个XML检索评价的国际组织有关。聚合6中的3名作者的研究主要集中在网络服务等语义主题上,包括多媒体数据的存储和交互,网络服务的安全和交换机制等。聚合7中的研究作者是3名化学家,其研究内容就是利用XML进行化学和分子科学数据的存储和管理。

(6)作者出版物耦合的语义聚合

图6-14是作者出版物耦合网络的可视化结果,表6-11对应列出这些聚合的语义主题分布。从图中我们可以发现,作者出版物耦合网络在相对值聚合规模相同的情况下获得的聚合数量最多。类似的研究在以前曾经提及[23],基于期刊的作者耦合网络的结构性分析结果很难进行详细的解释,且在不同的学科中该网络的表现力不同。本研究的数据样本中,包括了期刊论文会议论文等各种来源,从来源上来看,XML领域的论文来源的集中度相对高一些,因此其分析结果的可解释性略高。从总体上看,作者出版物耦合网络中共得到了11个作者聚合,其中uimo最大的是聚合7,代表研究人员为Ling T W,研究主题主要集中在XML查询、XML数据库和模式匹配研究上,即数据库环境下的XML组织和相应的数据模型和标准,并在此技术上实现XML信息检索。其他与XML信息检索相关的还包括聚合5、聚合6等。聚合9的规模也较大,其中包含了9名作者,代表人物包括Abiteboul S和Neven F等人,其主题也主要是与XML信息检索相关。类似的聚合还有聚合4和聚合8,但更侧重XML数据的表达、逻辑结构等研究内容。聚合10中的作者则更加强调文档结构和数据集成方面,是更加泛化的信息检索内容。聚合1是与医学信息管理相关的6名研究人员,其成果有许多都发表于Bioinformatics和Journal of American Medical Informatics等医学信息学期刊上,因此主题也相对集中。同时,这个群体的语义主题中较为突出的是,语义网和知识表示等主题所占的权重也非常高,说明在这个领域的XML研究中知识化程度较高。聚合3是与之类似的一个聚合,也是XML在跨学科和跨领域的应用,主要是在化学和分子科学中的应用。此外,聚合2则是关于XML用于数据描述性能提升的研究,应用于网络服务中的数据传输和查询,实现应用构建。聚合11则是更加泛化的数据库中XML语言的规范和结构化编程方面的语义主题。

图6-14 作者出版物耦合网络聚合的可视化结果

表6-11 作者出版物耦合网络聚合的语义主题分布

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈