在检索中,选择精确的检索词,并构造正确的检索表达式,对于检索效果的影响是至关重要的。
1.检索词的确定
确定检索系统和检索途径后,检索词的提取通常决定了检索信息的质量和数量。检索词是表达信息需求或检索课题内容的基本元素,也是信息检索系统中有关数据进行匹配运算的基本单元。
检索词是反映检索问题和需求的最基本的单元。检索词提炼的质量直接关系到检索效果。检索词要能全面、正确地表征检索需求。在提炼的检索词中哪些是主要的,哪些是次要的,检索词是否是规范词、缩略词,检索词能否正确组成检索表达式,这些细节都将直接影响检索质量。如果选词不当,则很有可能造成误检和漏检。
提取检索词的注意事项如下。
①参考检索课题需求的检索词,应能覆盖检索主题。
②选用常用的专业术语。不同的学科有不同的专业术语,图书情报学领域有“信息检索”“文献检索”“信息素养”“搜索引擎”等。
③避免选用高频词或低频词以及禁用词。检索时避免使用频率较低或专指性太高的词,尽量少用或不用不能表达课题实质的高频词,如“分析”“研究” “应用”“方法”“发展”“设计”等词。如果必须要用,则应与能表达主要检索特征的词一起组配,或增加一些限制条件再用。
④不使用含义不确定的词,如“厚”“薄”“强”“弱”“高温”等,一般使用具体的数字。
⑤尽可能多选用同义词、多义词、上位词、下位词等。
(1)概念切分。(www.xing528.com)
概念切分是指对课题的语句以关键词为单位进行拆分,转换为检索的最小单元。切忌把整个题名作为检索词。例如,要检索“多孔陶瓷的甲醛吸附作用”的相关文献,则不能使用整个句子作为检索词,而是将其切分成“多孔陶瓷、甲醛、吸附”几个小单元。切分要尽量切分成最小的单元,但切不可把一个完整的概念切分得失去了其本身的意思,如“数字图书馆”“第三方担保”等均为一个完整的概念,就不能再进行切分了。专用名词,如地名、机构名称等也不可切分。
(2)删除概念中的无用信息。
不具检索意义或检索意义不大的词不作为检索词。冠词、介词、连词、感叹词、代词等一般不作为检索词;词的词义泛指度过大,检索意义不大,如理论、报告、实验、学习、方法、对策、途径、研究、目的、发展、展望、趋势、现状、近况、动态、应用、作用、利用、用法、用途、开发、影响等不作为检索词;非公知公用的专业术语及其缩写一般也不作为检索词;过分宽泛或过分具体的限定词、禁用词不作为检索词;存在着合并关系的可合并词应删除,不作为检索词;化学结构式、反应式、数学式原则上不作为检索词。
(3)检索词规范化。
数据库具有规范化词表时,优先选择规范化词表中与检索课题相关的规范化主题词,可以获得最佳的检索效果。用表达明确、不易造成混淆的词替换表达不清晰或容易造成检索误差的词,如绿色包装中的绿色指的是环保、无污染,在检索时应用环保、无污染作为检索词。
(4)选择同义词、近义词等。
为提高查全率,避免漏检,应将概念的同义词、近义词都作为检索词,在某些情况下,还可以考虑常用词、缩略词、翻译名、不规范词、专业术语、上位词、下位词、词形变化等,总而言之,选取检索词要尽可能地全面。例如,检索有关自行车的文献,应同时考虑单车、脚踏车、山地车等词。
2.构造检索表达式
检索表达式,简称检索式,由检索词和各种逻辑运算符组成,就是采用计算机信息检索系统规定的各种算符,将反映不同检索途径的检索单元组合在一起而形成的一种逻辑运算表达式,是一种计算机系统可以识别和执行的检索命令式,其构造的优劣关系到检索策略的成败。检索表达式主要有逻辑表达式、截词检索表达式、位置检索表达式等,其中最为常用的是逻辑表达式。以中国知网的专业检索为例,检索项为篇名、关键词,检索词为网络、互联网、大数据、信息安全、运行安全、交易安全、数据安全、内容安全、信息窃取、信息泄露、信息篡改、信息损坏、信息侵权,检索表达式为(TI=(网络+互联网+大数据)AND TI=(信息安全+运行安全+交易安全+数据安全+内容安全+信息窃取+信息泄露+信息篡改+信息损坏+信息侵权))OR(KY=(网络+互联网+大数据)AND KY=(信息安全+运行安全+交易安全+数据安全+内容安全+信息窃取+信息泄露+信息篡改+信息损坏+信息侵权))。
构造检索表达式,需要明确检索的目的,选择合适的检索项,明确检索项之间、检索词之间的逻辑关系,正确运用信息检索技术。使用逻辑“与”算符,可以缩小检索结果的范围,获得较高的查准率。使用逻辑“或”算符,可以扩大检索结果的范围,获得较高的查全率。使用逻辑“非”算符,可以将无关概念排除,提高查准率。使用篇名或关键词作为检索项,可以提高查准率;使用主题或摘要作为检索项,可以提高查全率。一般情况下尽量不用全文作为检索项。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。