(一)搜索引擎的检索方法
1.加权检索
加权检索,即在检索时,给某个检索词一定的权值,以表示其重要程度。在现有的网络信息检索工具中,多采用加、减号来表现检索词在检索提问中的分量。用加号表示某检索词一定要包含在检索结果中,如检索式“+亚洲+金融风暴”的含义是:找出关于在亚洲发生的金融风暴的相关信息,即检索结果中必须同时含有“亚洲”和“金融风暴”这两个词;用减号表示某检索词一定不能包含在检索结果中,如检索式“+亚洲+金融风暴-南美洲”的检索结果,除一定包含“亚洲”和“金融风暴”这两个词之外,还要排除关于南美洲的信息,即检索结果中一定不能有“南美洲”这个词。
2.自然语言检索
自然语言检索,是指用户在检索时可输入自然语言表达的检索要求,例如,在检索“please find for me some thing about automobile sale in New York State”时,检索工具会按照提问,检索出关于在纽约州(New York State)汽车销售(automobile sale)的信息。这种检索的基本处理过程是:检索工具在收到用户提问后,首先利用一个禁用词表从提问中剔除那些没有实质主题意义的词汇,如各种副词、介词、代词、常用请求词(please、help、would、may等)、检索提问词(find、search、locate、check、information、materials等),然后将余下的词汇纽约州、汽车销售作为关键词进行检索。
3.相关信息反馈检索
在检索过程中,人们会发现某个结果非常符合自己的需要,因此希望能进一步检索到与该结果类似的结果,这称为相关信息反馈检索。在网络环境中,相关信息反馈检索可由检索工具自动进行,例如:excite的“search for more documents like this one”检索,以及Lycos的“more 1ike this”检索。
相关信息反馈检索的基本原理是:检索工具将用户所选定的结果网页中包含的关键词找出,通过它们在这个网页中出现的频率和位置等来计算各自的相关度,然后选出相关度较高的词汇作为下一步检索的检索词。但由于词汇选择只考虑了词汇出现的频率和位置,而没有考虑用户对各个词汇重要性的主观判断,所以其结果并不一定非常合适。
4.模糊检索
简单地说,模糊检索就是允许检索单元和检索提问之间存在一定的差异,这种差异即“模糊”在检索中的含义。模糊检索中所指的差异往往来自用户在输入检索提问时的输入错误,如少键入一个字,打错一个字母等。另一类差异来自某些词汇不同的拼写形式,例如:单复数,“catalog”和“catalogue”。这时检索工具应该能够检索到用正确词汇或其他变形形式标引的结果,而不是简单地告诉“输入错误”或“没有结果”。
5.概念检索
所谓概念检索,是指当用户输入一个检索词后,检索工具不仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词汇同属一类概念的词汇的结果。例如,检索“automobile”时能找出包含“automobile”“car”“truck”“van”“bus”等任一词汇的结果。又如,在查找“公共交通”这一概念时,有关“公共汽车”或“地铁”的信息也能随之检得。在此意义上,概念检索实现了受控检索语言的一部分功用,即考虑到了同义词、广义词和狭义词的使用。迄今为止,excite在概念检索方面取得了比较明显的成就。
(二)搜索引擎的检索功能(www.xing528.com)
1.检索提问的修改和限制
用户在得到检索结果之后,可选择把新一轮的检索范围限制在已获得的检索结果之内,以提高检索效率。此外,用户可以在键入检索提问之前或获得检索结果之后,从语种(如英文或中文)、日期(如前一周或上个月)、地理范围(如中国或美国)、域名范围(如.edu或.com)、网络信息类型(如万维网或用户网)、信息媒介类型(如文本信息或图像信息)等方面进行限制,以检得更确切的信息。
然而,尽管网络信息检索工具已具备上述对检索提问进行修改和限制的功能,但它们还不能够支持类似于联机检索和光盘检索中的“集处理”。在联机检索或光盘检索环境中,用户每输入一个检索提问,其检索结果就生成一个结果集。用户可通过逻辑运算符或其他检索方法对这些结果集再做进一步的修改和限制。遗憾的是,这种在联机检索或光盘检索中的“家常便饭”,至今对网络信息检索而言,仍是可望而不可即的。
2.按相关度排列结果
各种检索工具都在检索中计算检索结果的相关度,并按相关度顺序从高到低排列结果,许多还在每条结果旁给出相关度值。
大多数检索工具是通过计算检索词在每个结果中出现的次数和位置来计算相关度的,因此如果一个网页中包含的检索词越多、出现的位置越重要(如出现在网页标题中、网页元数据中或网页内容标题中),则这个网页的相关度就越高。有的检索工具还采用了其他辅助方式。例如,Google就考虑了网页被链接程度,如果有大量网页链接到某一网页或有一些非常重要的网页链接到该网页,则Google在计算网页相关度时,会增加该网页的重要性。
3.支持检索与浏览并行
允许用户在浏览过程中,随时在当前所处的类别中进行检索。
检索和浏览在信息查询过程中各有其功用。一般地说,检索便于有的放矢,直接获取检索结果;浏览有利于边查边看,发现未曾预料的结果。
4.支持检索结果的翻译和多语种检索
AltaVista依靠其在自然语言分析和处理方面的优势,率先推出了翻译网络检索结果的做法。翻译的语种现只有西文,如英文、法文、德文、西班牙文等。英文和其他几种语言可以对译,如英文译法文,法文又译成英文。对检索结果的翻译极大地方便了网络用户,但翻译质量的提高还有待于机器翻译研究的新成果来实现。
Google则借助于机器翻译技术,将一种自然语言转变成另外一种自然语言,使用户能够使用母语搜索非母语的网页,并以母语浏览搜索结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。