在手工检索时,每次检索只能从一个检索点出发,而且只能选择其中的一个属性值。比如主题检索,只能从某一概念出发(或参照其他一些说明),检索范围比较窄。而机检系统能够适应多点检索、多属性值检索,对课题所涉及的方方面面,对课题所包含的多种概念或多种限定都可以做出相应的处理,检索一次完成,检索结果比较全面。但是,计算机检索需要制订一个可执行的方案,这就是检索式的构造,它是检索策略的具体表现。
1.检索式的基本概念
检索式是表达用户提问要求的逻辑算式(Formula/Profile/Statement),它能够将各个检索单元(其中最多的是能表达主题内容的检索词)之间的逻辑关系、位置关系等用检索系统规定的各种运算符(Operator)连接起来,成为机器可识别和执行的命令形式。检索式可以是单一的,也可以是复合的,但通常都是由检索条件、检索词、逻辑运算符、表示运算优先级的括号、结束号等组成。其中,检索词是标引和检索文献时用以表达一定概念的语词或其他符号,是构成检索式的最基本单元。包括描述文献外表特征的词和文献内容特征的词两个范畴,涉及规范词、规范化的代码和自由词3种形式。
检索词应当满足匹配的要求,这里的匹配有两方面的含义:一是内容的匹配,即由主题概念转化成的检索词要能够准确、完整地表达检索课题的内容,这是由用户的信息需求决定的;二是形式的匹配,即用户检索使用的语言要能够与检索系统使用的语言一致,检索词才能被系统识别,这是由检索的本质决定的。
检索词的选择一般应遵循以下基本原则:
(1)主题词优先原则。检索系统中具有叙词表或主题词表的,优先选用叙词或主题词作为最基本的检索用词。
(2)自由词适度原则。在没有规范词表或对数据库进行全文检索时,可以使用自由词。自由词作为检索词时,要注意从专业角度出发,从国际上通用的术语出发,从有关文献信息中找出检索用词的规律,并且要尽可能不用多义词等。例如,使用“马铃薯”这一学名,而不使用“土豆”、“洋芋”等俗称。
(3)基本词组配原则。即在检索时要多选常用的基本词汇进行组配。
总之,检索词应当具有全面性、专指性和一致性,尽可能切合检索课题,并对检索课题的实质做出全面、准确的描述。
2.检索式的构造方法
检索式的构造方法是指对检索课题进行分析,选好检索词之后,使用系统规定的布尔逻辑符号及其他联系符号,按检索词之间的关系构造检索表达式的方法。从课题名称转换成检索式的思维过程,包含了自觉的和不自觉的、经验的和理性的、规律的和偶然的因素,因此,对同一课题不同的检索人员或同一检索人员在不同时间构造出的检索式很可能有很大差异。
一般来说,“聚类组合法”是对构造检索式的思维过程加以总结和规范化的结果,是指对检索课题名称按序实施切分、删除、替换、聚类、补充、增加、组合等7种基本操作,从而生成检索式的方法。
①切分:即对检索课题的语句进行切分,也就是以词为单位划分句子或词组。例如,“计算机在企业管理中的应用”这一检索课题,经过切分后应为“∣计算机∣在∣企业∣管理∣中∣的∣应用∣”。前者是字的集合,而后者是词的集合。
词是语义切分的最小单元,也是最基本的检索单元。切分必须“到词为止”,否则就会失去原来的涵义而产生错误。例如,如果将“计算机”切分为“计算∣机”,显然经过这样的切分而得到的两个概念与其原意相距甚远,这就是切分过度引起的错误。
②删除:删除是指对经过切分后的检索课题语句中的不适宜作为检索词的词进行删除。主要包括:一是删除不具有检索意义的介词、连词、助词、副词等虚词及其他非关键词。二是剔除不直接触及问题的实质,专指性不强,过分宽泛或过分具体的限定词。过分宽泛的词,如“应用”、“研究”、“历史”等,会导致大量与课题不相关的记录被检出,影响检索结果的查准率;而过分具体的词又太狭义,导致查全率太低。三是删除存在蕴含关系的可合并词。在一个课题名称中,如果两个词之间具有蕴含关系,可以酌情去掉一个而保留另一个。例如,在“我国家电产品中海尔空调的市场份额调查”这一检索课题中,“我国家电产品”涵盖了“海尔空调”,前者过于宽泛,后者则较为专指,针对实际研究的需要,可以删除“我国家电产品”这一检索词。
③替换:用户在提交检索课题时,可能会用一些表达欠佳的词汇来表达其检索需求,用词或太宽泛,或太模糊,或太狭窄,或根本不能作为检索词。在这些情况下,应当视具体情况用概念替换法,引入更明确、更具体、更本质的概念作为替换词或补充词。例如,“大气中细菌浓度的计算方法”(替换)→“大气污染的计算方法”。
④聚类:聚类是对切分出来的单元按语义进行同类合并,将彼此高度相关的词归入一组。“彼此高度相关的词”是指同义词或彼此有依附关系的词等,也就是说在检索式中可以相互替换、相互补充以及相互等效的词。聚类的实质是进行组面分析,经过聚类,语句由词的集合转换为概念(组面)的集合。例如,“∣计算机∣在∣企业∣管理∣中∣的∣应用∣”(删除)→“∣计算机∣企业∣管理∣应用∣”(聚类)→“∣计算机应用∣企业管理∣”。
⑤补充:尽可能在检索提问式中补充与原来的检索词相关、相似或相同的各种词汇,以提高检索结果的查全率。具体方法:一是补充还原词组。例如,“经济成分→合营经济+合作经济+混合经济+集体经济+私有经济+国营经济+国家资本主义”等;“模拟计算机→模拟系统+计算机”。二是补充同义词和相关词。例如,检索“国内外跨国公司研究”的文献,就要充分考虑到与“跨国公司”意义相同或相近的词语,如“跨国企业”、“跨国经营”、“多国企业”、“国际化经营”等。(www.xing528.com)
检索式的补充需要头脑风暴法、语言学方法、逻辑方法和内容分析法以及相关的学科知识,要善于望文生义,举一反三,充分发掘与待检索课题相近、相同、相反的概念,充分发掘与检索词同构、同性、同属、同种的词等等。例如,看到“知识结构”一词要联想到素质、专业知识、技能、能力等;看到“下意识”,要联想到意识、无意识、潜意识等。
⑥增加限义词:即对一词多义的情况进行限定,以提高查准率。一词多义常常导致误检。例如,要检索“金”(贵重金属),如果只输入“金”作为检索词,就会检出:金矿、金黄、金本位、金条、金笔、金子、金刚石、金库、黄金、金牌、金钱、金属、金星、金鱼等,其中与检索目的相符的(粗体显示的)不足1/3。为此,可以通过增加“限义词”的手段来对检索词进行限定和说明。通常,增加限义词的方法有两种,一是逻辑与,一是逻辑非。例如,为了把“杜鹃(花)”与“杜鹃(鸟)”相区别,可以增加与树木有关的词作为限义词,以逻辑与的方式加入到检索式中;也可增加与鸟类有关的词作为限义词,以逻辑非的方式加入检索式。具体增加哪些相关词,应当根据具体的检索课题而定。如“杜鹃→杜鹃*(花朵+叶子+土壤+…)”或者“杜鹃→杜鹃-(羽毛+鸣叫+飞翔+…)”等。
⑦组合:将检索用词按照检索课题的需要进行组合,以形成检索式。组合是基本元素相同,只是位置和顺序不同,而通过词的组合来组成词和句子,正是表达概念的基本方法。组合的多样性造成了表达用词的多样性。例如,“企业信息系统设计”,可以有“企业信息系统-设计”、“企业-信息系统设计”、“设计企业信息系统”等多种组合方法。检索时自然就要使用组合法来构造检索式,而检索词的组合是通过布尔逻辑符来进行连接的。在基本元素相同的情况下,改变结合关系、改变顺序是最基本的组合操作,为了充分发挥组合法的作用,组合的规范性操作可依照下述模型进行。从同样的元素出发,取出某一数量的元素并且按一定顺序排列,便产生了一个组合。对一个有3个元素的集合{a, b, c}来说,可以产生出如下组合类型:{a, b, c}→a, b, c;ab, ac, bc, ba, ca, cb;abc, acb, bac, bca, cab, cba。
综上所述,聚类组合法实际上是对构造检索式的思维和人工处理过程做了一个形式化的描述。其过程用数学模型可表示为:
原始材料:a1 b1 ed1 b2 f
① 切分: ∣a1∣b1∣e∣d1∣b2∣f∣
② 删除: ∣a1∣b1∣d1∣b2∣
③ 替换: ∣a1∣b1∣c1∣b2∣
④ 聚类: ∣a1∣b1/b2∣c1∣
⑤ 补充: ∣a1/a2∣b1/b2/b3∣c1/c2∣
⑥ 增加: ∣a1/a2∣b1/b2/b3∣c1/c2∣g1/g2∣
⑦ 组合: (a1+a2) * (b1+b2+b3) * (c1+c2) * (g1+g2) * (c1+c2) + …
需要说明的是,利用聚类组合法构造检索式时,要特别注意理论联系实际,不可生搬硬套。在检索提问式的实际构造过程中,并不是每个课题都需要“替换”、“补充”或“增加”;也不是每个组合都切合实际,一定要具体情况具体分析。
3.检索式构造技巧
检索式的构造是一项技术性较强的活动,需要长期的经验积累和相应的学科知识。通常把构造检索式过程中所使用的技巧称为检索技术。
在联机检索和网络检索中,常用的检索技术包括布尔检索、截词检索、限制检索、原文检索、比较条件检索、加权检索、聚类检索、概念检索、模糊检索等。在网络检索中,通常使用搜索引擎规定的检索技术和检索命令进行检索,如Alta vista中的Domain、Host、URL、Link等命令或特定的字段进行检索。也可以根据搜索引擎的智能化水平,采用直接的自然语言词汇或语句进行查询。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。