数字图书馆知识服务体系展示层主要是通过文档聚类技术和关联推荐技术,能够呈现一个资源维度的立体层次结构,充分揭示了检索结果中数据的分布情况,能够从不同层面描述每一个可能的具体需求,引导用户更快速地定位自己的所需资源。
知识检索的结果排序同时考虑相关性和重要性,相关性采用各字段加权混合索引,相关性分析更准确,重要性指通过对文献来源权威性分析和引用关系分析等实现对文献质量的评价。[17]知识检索适应于题名、关键词、摘要、主题等检索项,用于叙词、标题词、单元词、关键词等表达信息需求而进行的检索。自由词自动与《汉语主题词表》进行匹配。输入的检索词能自动纠错,并与知识标引的领域本体自动关联。基于本体的检索扩展包括同义扩展和属性扩展两种类型。同义扩展是最基本的扩展类型,即通过本体定义获取检索提问中概念的同义词;属性扩展是通过本体定义获取检索提问中与主语相关的属性定义。
检索结果聚类是指应用文档聚类技术,将文献检索结果分成若干个称为簇的子集,每个簇中的文献之间具有较大的相似性,而簇之间的文献具有较小的相似性。数字图书馆检索平台中的关联推荐是指挖掘分析文献数据资源中文献之间、作者之间、机构之间、关键词之间的关系,进行关联文献、相关作者或机构、相关词语等数据资源的推荐。[18]
检索结果聚类关联展示,可以有效地反映出特定Query下,检索结果内容的分布,可以清晰地描述出结果中的各个类别,将相关内容聚合成一类,对每一类别提取出代表性标签,用于用户引导,达到区分不同人群不同需求的问题。对Query结果的展示方式亦不再是传统一页式若干条结果的流式输送,而是采用展现核心词或代表词的方式,简明扼要地从不同维度提示核心信息,免去用户重新构造Query再搜索或在大量检索结果中寻找、定位所需内容的过程,可以认为这是在原有的流式结果基础上增加了资源导航功能。
对检索结果进行聚类关联展示,主要有如下几类:
(1)分年度呈现。对检索结果,按出版年度进行聚类。分年度展示,可以表明关于该主题研究的一个发展趋势。
(2)分学科呈现。根据数据库学科分类标准进行聚类,目前由于各数据库分类标准不一,同一主题在不同数据库中可能属于不同学科类别。按学科类别分组可以查看检索结果所属的更细的学科专业,进一步进行筛选,找到所关注文献。(www.xing528.com)
(3)分文献类别呈现。一般分期刊、会议、报纸、专利、学位论文等进行展示。
(4)按关键词聚类。首先,按关键词聚类显示检索结果,可以帮助学习者获得领域的全局知识结构。其次,关键词将文献/知识进行聚类,把知识组织成簇,揭示了知识的背景,方便学习和研究。最后,根据检索的关键词共现关系,可对其进行词频分析并展示,即通过特定算法提取每篇文档的关键词,接着运用统计方法计量不同文档的共现关键词并形成相应的共现关键词标签矩阵,然后利用层次聚类算法对共现关键词标签进行聚类并形成相应的层次标签树来构造文档聚类束。该方法可以对源搜索引擎返回的结果进行有效的分类,使用户在更高主题层次上查看检索词的相关信息,准确地找到感兴趣的信息。
(5)按出版物聚类。根据刊名、学位单位、会议名等进行聚类。按出版物名称分组可以帮助科研人员查到质量高的文献资源,因为大部分高质量的文献都会发表在高质量的出版物上。
(6)按作者聚类。分作者与作者单位两种方式聚类。按文献作者分组可以帮助研究者找到学术专家、学术榜样,还可以帮助研究人员跟踪某学者的发文情况,发现未知的有潜力学者。按作者单位分组可以帮助学者找有价值的研究单位,以此全面了解研究成果在全国的全局分布,跟踪重要研究机构的成果,也是选择文献的重要手段。[19]
(7)按被引频次排序。根据相关主题文献被引频次进行排序,从而发现影响力最高的核心文献及核心作者。
(8)按相关度排序。采用PageRank等排序算法,按与主题的相关度进行排序,自动推荐与检索主题最相关的文献。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。