309篇中文文献中期刊论文占大多数,达到了153篇,博士论文35篇,硕士论文100篇,其他类型文献22篇。文献发表的时间和数量分布如图1-1所示。从文献发表的时间上来看,国内与本书研究主题相关的论文最早发表于2000年,从2003年到2010年,相关的研究论文经历了一个数量上的快速增长时期,2011年的论文数量虽有所回落,但从整体上来看相关的研究论文数量一直处于上升状态。
图1-1 中文相关论文发表时间分布
一般而言,符合学术规范的论文均会由作者标注多个关键词,以表征文章的研究对象、研究方法、研究领域等,对关键词的分析可以发现研究的主要结构布局和最重要的主题。表1-1显示了与本研究相关的中文论文中出现5次以上的20个关键词。由于本书实施的检索入口是关键词,所以检索式中出现的词汇在结果中出现频次最高,除此以外,还出现了许多检索式中并未出现的高频词汇,如数字图书馆、Web2.0、语义Web、搜索引擎、服务质量、服务组合、信息检索、聚类、数据仓库和数据挖掘等。为了明确由词汇所代表的研究内容之间的关系,进一步对出现频次大于2的78个关键词进行共词分析的可视化结果如图1-2所示。
表1-1 中文关键词分布(频次大于5)
续表
共词网络的结构分析采用了Robert Tarjan提出的组分结构算法[16]。从结构上来看,78个关键词分成了三个较为分明的板块,左侧的研究内容主要侧重于信息检索、搜索引擎的研究,而右侧的板块则主要集中在数字图书馆领域,与“聚合”相关的词汇则主要处于两者之间,例如语义聚合、知识关联、知识网络等。这说明目前与科学文献资源聚合相关的研究主要集中在信息检索领域和数字图书馆领域,但是各项研究内容之间的交叉实际上并不是十分明显。此外,从图中我们可以发现,处于中间位置的多个关键词中,有一些词汇主要是关于计量方法的词汇,如耦合、共现等,虽然这些词的数量有限,但非常明显地体现了计量学方法在聚合研究中的作用。
进一步结合搜索引擎和其他中文数据库的结果,可以发现与本书研究主题相关的研究文献主要集中在2011年之后。在相关的立项方面,2011年国家社会科学基金重大项目招标题中有一个“基于语义的馆藏资源深度聚合与可视化研究”,严格意义上来说,这是第一次将语义化、馆藏资源和聚合这几个概念进行结合[17];同年度社科基金重点项目中,华中师范大学夏立新教授主持了同名的项目。其后,相关的立项逐渐增多,如2012年社科基金重大项目招标中南京大学孙建军教授主持的“面向学科领域的网络信息资源深度聚合与服务研究”[18],自然科学基金项目吉林大学毕强教授主持的“语义网环境下数字图书馆资源多维度聚合与可视化研究”,武汉大学胡昌平教授主持的“数字图书馆社区的知识聚合与服务研究”等项目;2013年国家社科基金项目上海交通大学郑巧英研究馆员主持的“多种媒体特色资源深度聚合与组织研究”、2013年教育部人文社会科学项目武汉大学赵蓉英教授主持的“馆藏数字资源语义化深度聚合的理论与关键技术研究”、上海大学张云中主持的“社会化标注系统资源多维度聚合与导航研究”、中山大学宋琳琳主持的“图书馆、档案馆与博物馆数字信息资源的深度聚合研究”等项目;2014年社科基金中山大学马翠嫦主持的“语义和情景关联的网络资源聚合单元分类体系构建与评估研究”;2015年社科基金中山大学贾君枝主持的“基于关联数据的中文名称规范档语义描述及数据聚合研究”、华中师范大学翟姗姗主持的“面向语义出版的数字图书馆资源多维度聚合研究”等。这些立项的出现,充分说明关于数字资源聚合的研究正在成为学术界研究和关注的重点内容。由于这些项目大多数立项时间较短,因此发表的相关成果暂时不多见。整体来看,目前现有的关于资源聚合的研究主要包括如下几个方面:(www.xing528.com)
(1)关于聚合理论的研究
从目前已有的研究来看,信息环境下“聚合”的提法已经出现,但是对聚合的概念探讨较少,索传军等学者认为,文献采访、描述和组织过程也是文献信息的聚合过程,所以图书馆就是一个馆藏资源的集合器[19]。书目型数据库针对的是印刷型文献,是实体资源的聚合器;数据库和导航系统针对的是数字资源,是虚拟资源的聚合器。从含义上来看,聚合包括聚集和整合两个部分,即聚集是对资源与用户需求的聚集,整合是指从用户的需求出发,对馆藏资源的内容、图书馆提供的服务内容的整合。刘明辉等人认为,在信息的组织层面,聚合这个概念主要是指内容的聚合,即从不同的线上资源收集网络内容并重用或者重新销售[20]。在此基础上衍生出的聚合器包含两种类型:一种是简单地从网站收集不同的信息,另一种是为了客户需求收集和分发内容。
泛在的网络环境下,聚合已经被广泛使用。当前的网络环境下,聚合是指对各种数字信息的集合。许多学者认为聚合是搜集和重新组织那些具备RSS订阅功能的网页或Blog的过程[21],而这一层概念在更大范围上被使用和接受,关键词分析中大量出现的RSS就与之相关。邓胜利认为,信息聚合就是通过客户端软件或者网络应用程序将诸如新闻头条、博客、播客等网络信息聚合到单一地点以方便用户浏览[22]。也有学者将“Mashups”翻译为聚合,认为聚合是将来自不同来源的数据整合到一个工具中,这个工具可以提供一种新方式去揭示并整合数据[23]。
(2)关于聚合深度的研究
资源聚合的深度,指通过对资源实施聚合所获得的结果揭示知识信息的效果和程度。当前国内的研究主要侧重于信息组织和知识组织的研究,即在对资源实现深度组织的基础上进行的资源聚合,对于馆藏资源而言主要是指在馆藏资源语义化的基础上进行的资源整合研究。王菲菲在揭示馆藏资源语义化方法存在问题的基础上,将信息计量学的方法与语义网的方法相结合,构建了基于计量分析的馆藏资源语义化理论模型,并初步探索了通过引入计量学的相关分析方法来融合两种语义化方法的优势,尽可能提高计算机自动处理能力,同时提高语义关系揭示能力[24]。贺德方、曾建勋等研究人员从基于OPAC、跨库检索、引证关系、元数据的聚合,以及相应的整合方法等多个方面对国内外研究现状进行了概述,提出了基于概念及概念关系、基于引证关系和基于科研本体这三种基于语义的馆藏资源聚合方式;同时还提出了馆藏资源聚合服务所需要的语义描述框架、可视化展示机制和聚合服务的具体功能[25]。
对于聚合深度的研究也往往集中在资源整合的研究过程中。黄传慧、李娟等学者从数据、信息、知识三者间的递进关系的层面进行了研究,从数字信息资源加工深度的角度,认为数据整合、信息整合、知识整合构成了图书馆数字信息资源的整合目标层次,指出基于知识本体的整合是最具深度优势的发展方向[26]。马文峰研究了数字资源整合的内涵、理论基础以及动因、方式等,并在此基础上指出知识组织理论与方法是数字资源整合的基础[27]。对于数字资源的整合方式,肖希明和唐义则根据对数字资源内容的不同整合深度,即数据整合(Data Integration)、信息整合(Information Integration)以及知识整合(Knowledge Integration)三个层面对不同的数字资源整合方式进行了归纳和总结[28]。牟冬梅认为,知识组织语义互联是数字图书馆泛在知识环境下必须解决的问题,她探讨了语义互联的概念层次和必要性,分析了语义互联面临的主要问题和解决思路,并构建了语义互联的应用模型[29]。
(3)资源组织角度的聚合方法研究
当前信息环境下,数据存在的形式包括结构化数据(如关系型数据库数据),半结构化数据(如HTML、XML格式的数据),非结构化的数据(如多媒体文件)等,这些数据或保存在不同的平台,形式不同,访问的方法也存在不同。这就导致了数据的多元异构问题[30],对资源进行统一的规划和管理首先必须实现数据集成,满足用户无障碍地访问分布式异构数据源。在数据集成基础上,再通过赋予资源语义构建领域本体库,实现基于语义的知识互联,最终实现基于语义的知识资源深度聚合。随着网络技术的发展,XML在SGML等语言的基础上被开发出来,XML的平台独立性特征在解决多源异构数据中的互操作问题方面被寄予厚望,但依旧无法解决数据的语义异构问题。在当前的数据集成过程中,人们则更关心集成后的数据所展现出的语义内涵,本体等相关知识表示技术被深入研究。本体所具有的三元组结构能够抽取多元异构数据中的概念,并揭示其间所包含的关联,从而挖掘数据的深层内涵。
基于语义的文本分析与挖掘是实现资源聚合的另一个重要途径。国内在中文分词方法模型与自动分词系统的研发与应用以及汉语独特的语义分析和知识表示模式研究中,取得了很多研究成果。文本中语义概念及关系应用于信息检索中可以实现对信息资源的语义处理,以实现效率更高、精度更准的检索。张志浩[31]、毛平[32]、邓志鸿[33]等研究人员指出,采用不同手段将本体技术融入传统的信息检索技术中,可以在保证对数据资源的自然语言处理能力的同时,有效提升信息检索过程对概念及其关系的语义化处理程度,具有非常明显的应用优势。董慧等学者围绕基于本体的数字图书馆语义信息检索进行了系列研究,并进行了基于文本内容的语义信息抽取和知识推理规则下的语义检索应用[34][35][36][37]。张玉峰、王翠波、艾丹祥等学者进行了基于语义网的信息组织与智能导航的研究,其导航功能的实现是对资源的一种高效率深度整合[38]。唐晓波等学者则开发了基于本体与语义相似度的数据挖掘模型[39],该模型主要用于解决用户的目标发现和挖掘对象选择的问题,同时也在数据挖掘算法上引入了本体概念,使得系统能快速识别用户需求,高效地选择相应算法,在很大程度上提高了数据挖掘处理异构、分布式数据的能力。其一系列研究如文本聚类与LDA相融合的微博主题检索模型[40]、基于潜在语义的数据挖掘模型[41],兼顾了当前数据稀疏、多维、海量的特点,能实现良好的主题挖掘和主题结构识别功能,实现了文本层面的知识聚合。
(4)基于计量学的聚合研究
由于聚合的过程包含了对原始资源的集成和分析,进一步实现对资源所包含的知识进行深度挖掘,从而为用户提供所需的知识,与计量学的方法和研究目的具有明显的相似性,因此,计量学研究的方法应用于资源聚合的研究也不断出现。王曰芬等学者认为,利用共现分析可以发现研究对象之间邻近或亲疏关系的本质,可以在知识服务中应用于构建概念空间和本体,实现语义检索、改进知识组织中文本分类的效果、分析文献中知识内容关联、发掘知识的价值[42]。耿骞等学者认为,词共现关系能够用来提取语义本体,在获取的语义本体的基础上,可以进一步构建知识地图反映领域知识,从而实现知识检索[43]。《数字图书馆论坛》2008年第6期发表了一个复杂网络专辑,毕然、吴斌等介绍了融合复杂网络理论的科技文献信息处理、分析、展示的技术[44],王翼、杜楠及吴斌等探讨了复杂网络在文献信息服务中的应用及实现方法,重点讨论了聚类和社团发现方法在文献信息服务中的适用性问题[45]。邱均平和王菲菲等学者则构建了基于共现与耦合的馆藏文献资源聚合的模式,涵盖从馆藏数字文献资源的初始数据准备到共现路径与计量方法的设计,再到不同资源聚合模式和聚合深度与层次的引入,直至针对用户需求的聚合结果获取,串联了资源与用户之间的整个路径,对基于计量分析资源聚合进行了很好的总结。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。