首页 理论教育 国外研究现状及优化措施

国外研究现状及优化措施

时间:2023-07-08 理论教育 版权反馈
【摘要】:从外文文献发表的时间维度上来看,国外从1991年开始就有相关的研究,在2009年左右达到数量的最大值,从2010年开始研究数量略微开始有所减少。从数量发展的整体趋势上来看,国外的研究和国内的研究呈现出相同的情况,其数量的转折点也相似。表1-2英文关键词分布续表进一步对出现频次大于2的108个关键词进行共词分析的结果如图1-3所示。

国外研究现状及优化措施

从外文文献发表的时间维度上来看,国外从1991年开始就有相关的研究,在2009年左右达到数量的最大值,从2010年开始研究数量略微开始有所减少。从数量发展的整体趋势上来看,国外的研究和国内的研究呈现出相同的情况,其数量的转折点也相似。表1-2是出现频次大于等于5次的32个英文关键词分布情况。可以发现并未出现在检索式中的关键词包括Rank(排序)、Fuzzy logic(模糊逻辑)、Decision making(决策支持)、Linguistic modeling(语言建模)、Algorithms(算法)、Knowledge discovery(知识发现)、Clustering(聚类)、Web service(Web服务)、XML、OLAP(联机分析处理)、Query processing(查询处理)、Similarity measures(相似性测量)、Uncertainty(不确定性)、Conceptual modeling(概念建模)、Data warehouse(数据仓库)、Databases(数据库)、Linked data(关联数据)、Personalization(个性化)、Information fusion(信息融合)、Knowledge management(知识管理)、RDF(资源描述框架)等内容。

表1-2 英文关键词分布(频次大于等于5)

续表

进一步对出现频次大于2的108个关键词进行共词分析的结果如图1-3所示。同样根据模块化算法进行结构分析发现,108个词分成了3个相关的群体。规模最大的群体中包含了检索策略中的主要关键词,例如信息聚合、数据聚合、关联数据、本体、元数据、分类法等,这些关键词主要代表了从资源组织角度进行的资源聚合研究等;规模第二的群体主要代表了与数字图书馆紧密结合的聚合研究;第三个群体所包含的词汇数量较少,但其特征十分明显,主要包括了计量学领域的一些词汇,如共现分析、聚类、排序等,这些词汇构成了基于计量学的聚合研究。

(1)资源组织角度的聚合研究

(www.xing528.com)

图1-3 出现频次大于2的英文关键词共词分析

从资源组织角度进行的聚合研究,主要经历了数据集成-信息整合-知识聚合这样一个过程[46]。数据集成阶段的研究主要集中在通过相关技术对联机公共目录网络数据库、自建数据库、电子图书资源的导航与整合检索等不同数据资源进行集成,进而构建文本资源与数字资源相结合的复合型图书馆[47],该阶段针对的主要问题即多元异构数据的处理。但数据集成并没有对数据对象之间的关系进行有效的揭示和组织,因此,经过一段时间的发展,学者们的研究视角逐渐转向对信息实体关系进行有效的组织和整合研究。2003年,Roberto Carlos等人针对大学网络数字图书馆的学位论文的互操作和信息整合问题进行了研究[48],Doerr M等人则提出了利用核心本体进行信息整合的原理和方法,以便解决异构信息的互操作以及跨域资源发现[49]。2010年,谷歌、伯克利加州大学等机构开发了名为OpenII的信息整合开放平台[50]。随着语义化技术的引入,信息整合很快就进入了更深层次的知识聚合的阶段,两者之间共同发展,其历史阶段存在着明显的交叉。知识聚合可以认为是对信息实体中的内在概念及概念之间的关系进行表征,其标志之一是语义网技术的使用。2001年,Wache H等人对基于本体的信息整合进行了研究,第一次将语义网技术引入信息整理的流程中[51];Kalfoglou等人则利用本体地图对文本实施语义匹配研究[52]

(2)数字图书馆领域的聚合研究

在与数字图书馆直接相关的研究中,当前的研究内容体现出信息整合与知识聚合共同发展的趋势,出现了三个比较不同的研究群体,首先是关于信息资源整合系统设计、互操作标准、开源软件开发工具平台的研究。新西兰怀卡托大学计算机专家Witten等人是其中的典型代表,他们利用开源软件Greenstone(绿岩系统)构建了数字图书馆的资源存储系统[53],针对移动环境下的数字图书馆应用、Greenstone软件系统的环境压力分析、语义检索及检索结果的可视化等展开了许多研究[54]。第二个群体的研究则主要集中于非系统的技术环节,例如电子图书馆开展信息服务的技术、信息组织方式和用户使用之间的衔接、数字资源语义的抽取等。马来西亚普特拉大学的Selamat H等学者设计了自动语义抽取工具PTree,用于对覆盖多领域的文本内容进行分析,并通过自动语义抽取将概念与概念之间的关联通过树形结构展示给用户,用户通过概念之间的关联所形成的知识网络将检索进行扩展,并且通过链接的方式直接给用户提供概念所处的文本中的原始位置[55]。第三个群体的研究内容是语义化技术,例如本体、自然语义处理,在自然科学和工程科学领域中进行应用,实现如生命科学和医学、地理信息化学和分子科学领域的数字资源整合。美国亚利桑那大学的数字图书馆专家Kristin M Tolle等人系统比较了可以利用于医学数字图书馆的自然语言处理技术noun phrasing,实现对医学数字资源语义信息的提取,以提升医学信息的标注精度和信息检索的召回精度[56],其合作者广泛研究了语义化技术在其他学科领域的应用研究。Springer出版社于2006年专门出版了Semantic Web and Education一书,论述了语义网技术在网络时代教育学领域的应用[57],荷兰开放大学的计算机专家Rob Koper论述了如何通过语义技术实现教育数字资源的组织并实现对现代化教育的支持[58]

(3)基于计量的聚合研究

从分析对象中发现知识是信息计量技术和方法的直接研究目的之一,相关核心内容包括知识的结构发现,知识的演化过程分析,其客观的结果就是针对具体内容信息集成的知识聚合。国外研究中对于资源而言主要集中在引文分析以及共词分析相关的研究内容,对于作者、期刊等资源实体网络与知识技术的结合则少有涉及。引文分析是针对图书、论文等资源所标注引文的动机、频次、模式和结构进行的研究[59]。引文从事实上反映了知识传承的过程,Garfield在1964年就指出科学的发展过程可以由一系列重要事件做标注,科学文献之间的引用关系从时间上反映了知识的发展过程[60],并由此进行了一系列的研究[61][62]。事实上,引文分析法直接和资源相关,从引文网络中所发现的重要文献群就是对知识实现聚合的一种重要方式。引文分析的一个重要发展是共被引和文献耦合的提出,共被引[63]是指两篇不同的文献同时被其他文献引用,而耦合则指两篇或者多篇文献同时引用另一篇文献[64],这两种方法目前被广泛应用于商业化的数据库系统中。共被引和耦合提供了一个重要的资源聚合途径,即在资源由引用关系所构成的网络结构中通过特定的方法实现资源的聚合,例如结合多元统计中的聚类分析法进行样本的聚类,并在此基础上实现领域知识的聚合[65],其主要对象就是数字文献资源。随着技术水平的不断提高,共引分析和耦合分析与其他技术也不断结合,例如自组织映射技术、网络寻址定位、文本挖掘等也越来越多地被应用于相关研究中。此外,随着自然语言处理技术的发展,基于自然语言处理的语义挖掘技术也被应用于引文分析中,例如斯坦福大学卡耐基梅隆大学的计算机专家利用LDA的变形同时对文献和引文进行建模,从而探索引用的语义内涵[66],但目前尚未得到广泛认可。

共词分析法是由法国文献计量学家于20世纪70年代提出的,其分析的对象主要面向表征科学知识内容的词语,Calon等人在1983年将共词分析法引入图书情报研究领域进行内容分析[67],有学者将国外共词分析的研究分成了三个不同的阶段:即基于包容指数和临近指数的共词分析,基于战略坐标的共词分析和以数据库内容结构为特征的共词分析[68]。除共词分析之外,Swanson和Smalheiser在1986年利用单词词频统计方法挖掘隐藏于医学文献中的有价值的知识[69],开创了非相关文献的知识发现。相关的研究经过20多年的发展,逐步与自然语言处理的最新技术相结合,并拓展到语义的层面[70][71]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈