首页 理论教育 基于排序算法的检索结果呈现-数字图书馆应用研究

基于排序算法的检索结果呈现-数字图书馆应用研究

时间:2023-10-27 理论教育 版权反馈
【摘要】:排序是与检索技术密不可分的一项技术,高质量的排序是高质量检索的重要组成部分。检索本身解决的是匹配问题,对于检索命中的若干匹配结果进行显示,则是排序的问题。将与用户期望的结果最匹配的排在最前面,是每个检索系统追求的目标,其排序方案设计的优劣,直接影响用户的检索体验和效率。常见的有3种指标组合排序算法:按经典论文优先排序。按相关度优先排序。

基于排序算法的检索结果呈现-数字图书馆应用研究

检索是知识发现的重要手段,是一种基础的知识服务,只有找到用户需要的信息才能提供进一步的服务,因而检索质量的高低直接决定了知识服务的优劣。排序是与检索技术密不可分的一项技术,高质量的排序是高质量检索的重要组成部分。检索本身解决的是匹配问题,对于检索命中的若干匹配结果进行显示,则是排序的问题。将与用户期望的结果最匹配的排在最前面,是每个检索系统追求的目标,其排序方案设计的优劣,直接影响用户的检索体验和效率

文献检索系统结果排序可使用的指标大体可分为两类:一类包括文献自身属性,比如都柏林核心集规范包括的题名(Title)、主题(Subject)、日期(Date)、创建者(Creator)等字段;一类是延伸属性,比如与检索表达式的相关度、文献所在刊物的外部评价级别(如是否被某种索引工具收录,是否为核心期刊等)、文献被引用次数等。常用优选可用的排序指标分两类:在文献自身的属性中,优选指标包括题名、创作者、时间等几个指标,这些指标能够比较全面地概括资源的主要特征,用户可以通过这些元素对资源进行检索和排序;在延伸属性中,优选的指标包括相关度、被引用次数、刊物级别、浏览次数和下载次数、作者级别、核心作者引用以及核心期刊引用等,这类指标能够较为深入地说明资源与用户需求之间的匹配程度,并含有对资源质量的判断。实现用户检索时希望得到最相关、文献质量最高、最新发表等隐性检索需求。[9]

具体地说,Rank包含两类排序:一类是单指标排序,另一类为多指标综合排序。单指标排序是指只采用单个属性项目进行排序的方法,多指标综合排序是指采用多个属性项目按照不同权重组合起来进行排序的方法。这里包含两个关键点,即采用哪些排序指标组合和每个指标所占的权重。常见的有3种指标组合排序算法:

(1)按经典论文优先排序。使用文献被引用次数、刊物级别、作者级别、核心刊引用、核心作者引用、相关度等作为排序指标,并且前5个权重设置较大,最后一个权重设置较小。按经典论文优先排序的效果是将相对比较新,和检索主题相关且是领域权威、最重要的文献显示在检索列表的前面,以便用户查阅领域内的经典文献。(www.xing528.com)

(2)按新论文优先排序。使用时间、相关度、核心刊引用等作为排序指标,并且第一个权重比较大,其他权重较小。按新论文优先排序的效果是将和检索主题相关、在领域内相对权威和重要的且是新近发表的文献显示在检索列表的前面,以便用户查阅领域内最新发表的值得查阅的文献。

(3)按相关度优先排序。使用相关度、被引用次数、刊物级别等作为排序指标,并且第一个权重比较大,其他权重较小。按相关度优先排序的效果是发表时间相对较晚、在领域内相对权威和重要的且是和检索主题最相关的文献显示在检索列表的前面,以便用户查阅限定领域内的文献,进行学习和综述研究等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈