5.4.1 检索效果的评价指标
检索效果是指检索系统检索的有效程度,它主要针对机检提出,反映检索系统的能力,但有些指标对手检也有意义。检索效果包括技术效果和经济效果两方面。技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所决定的;经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所决定的。一些指标不仅可做定性的、也可做定量的评价,它们评价的是检索系统,但也涉及实施检索的人如何能发挥检索系统的最大能力、效益等因素。
英国的克兰弗登(C.W.Cleverdon)在分析用户基本要求的基础上提出了六项评价检索效果的指标,包括收录范围、查全率、查准率、响应时间、用户负担及输出形式。
收录范围是指检索系统的数据覆盖率以及收录的信息质量。覆盖率越高检索效果相对越好。此外,也不能只强调覆盖率,还要讲究信息的质量,比如劣质信息、垃圾信息、重复信息都会影响检索的结果。
响应时间是指从提交检索命令到查出资料结果所需的时间。响应时间与多种因素有关:如计算机硬件、上网方式、系统是否具有记忆搜索结果加速调用的能力。
用户负担是指用户在检索中所承载的负担,即对检索系统的满意度。界面友好是所有检索工具是否易于使用的衡量标准。界面的设计应简单、通俗、易操作,使用户不需要付出很多努力就可以掌握使用方法。
输出形式是指检索结果输出的多样化与灵活性,由此来满足不同用户的不同需求。
查全率(Recall Ratio)=检出的相关文献量/检索系统中相关文献总量,即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,要达到100%的查全率是不可能的,在网络条件下尤其如此。
查准率(Precision Ratio)=检出的相关文献量/检出的文献总量。指检出文献中合乎需要的文献数量占检出文献全部数量的比例。查准率高说明你检出的东西都是有用的东西。一般来说,很少能达到100%的查准率。
在以上六项评价检索效果的指标中,查全率与查准率是衡量检索质量的两个重要标准。查全与查准两个方面一般难以两全,为了获得很多有用的信息,达到较高的查全率,需要较少的限制检索条件,但这样检出的无用信息就会增加,查准率不高;而如果要获得较高的查准率,就必须增加检索限制条件,则查全率势必降低。如果n为检索系统中文献总量,m为检索输出的文献量,a为n中与检索课题有关的文献量,b为m中与检索课题有关的文献量(检准文献量),则n、m、a、b之间的关系如图5.7所示。
(www.xing528.com)
图5.7 文献总量与检出的相关文献量之间的关系图
如果R表示查全率、P表示查准率、M表示漏检率、N表示误检率,则R、P、M、N定义如下:
R=b/a*100%
P=b/m*100%
M=(1-b/a)*100%=100%-R
N=(1-b/m)*100%=100%-P
例如:在一个具有1 000篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,则其查全率、查准率、漏检率和误检率分别为:
查全率=30/50*100%=60%
查准率=30/60*100%=50%
漏检率=(1-30/50)*100%=40%
误检率=(1-30/60)*100%=50%
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。