1.信息检索效果
要想了解信息检索的最终结果是否满足用户需求或满足程度如何,就要对检索质量和效率进行评价。
在检索实践中,评价检索效率的基本指标具体有以下几种。
①查全率(Recall ratio)——用“R”表示。
②查准率(Precision ratio)——用“P”表示。
③漏检率(Omission ratio)——用“O”表示。
④误检率(Fall-out ratio)——用“F”表示。
⑤新颖率(Novelty ratio)——用“N”表示。
⑥有效率(Availability ratio)——用“A”表示。
⑦检索速度(Time ratio)——用“T”表示。
(1)查全率(R)和漏检率(O)
在对特定检索系统进行检索的过程中设定:检中的相关信息量为a,系统中的相关信息总量为b,检索出的信息总量(包括非相关信息)为c,被用户实际利用的信息量为d,检索过程所花费时间为t。
查全率等于检索出的相关信息量与系统中的相关信息总量的百分比,而漏检率指检索系统中的相关信息未被检中而造成的遗漏现象。查全率和漏检率是互补关系。实际上由于现代检索系统的数据更新迅速,并大量采用关键词进行特征标引,作为用户不可能清楚系统中相关信息的实际数量,因此,查全率和漏检率实际上均为模糊的指标。(www.xing528.com)
(2)查准率(P)和误检率(F)
查准率等于检中的相关信息量与检索出的信息总量的百分比,误检率等于检索出的无关信息量与检索出的信息总量的百分比。查准率和误检率也是互补的关系。
(3)检索速度(T)、新颖率(N)与有效率(A)
检索速度是衡量检索效率的一个重要指标,影响检索速度的因素主要有检索系统本身的运行速度、用户的检索技能水平和网络通信传输速度等方面。新颖率指获得最近一年、半年或一个月等单位时间内的最新信息量的比重。有效率指被检中的相关信息中与用户需求密切相关并被利用的信息量的比重。
从以上几个指标可以清楚地看到,我们对所需信息的满足程度是相对的,几个评价指标都同时达到百分之百是不可能的,比如查全率越高,查准率就越低;反之,查准率越高,则查全率就越低。
2.影响检索效果的因素
查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有非常密切的关系。
(1)影响查全率的因素
从文献存储来看,主要有文献库收录文献不全,索引词汇缺乏控制和专指性,词表结构不完整,词间关系模糊或不正确,标引不详,标引前后不一致,标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有检索策略过于简单,选词和进行逻辑组配不当,检索途径和方法太少,检索人员业务不熟练和缺乏耐心,检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
(2)影响查准率的因素
主要有索引词不能准确描述文献主题和检索要求,组配规则不严密,选词及词间关系不正确,标引过于详尽,组配错误,检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求,检索系统不具备逻辑“非”功能和反馈功能,检索式中允许容纳的词数量有限,截词部位不当,检索式中使用逻辑“或”不当等。
实际上,影响检索效果的因素是非常复杂的。国外有关专家所做的实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。