首页 理论教育 搜索引擎的种类与优化方法

搜索引擎的种类与优化方法

时间:2023-07-07 理论教育 版权反馈
【摘要】:目录型搜索引擎,也被称为网络资源指南,是浏览式的搜索引擎,起源于Yahoo!在实际网络信息检索中,关键词检索得出的结果虽然多而全,但其没有目录式搜索引擎那样清晰的层次结构,信息来源繁杂。目录式搜索引擎将信息系统地分门归类,特别适合希望了解某一方面信息又不严格限于查询关键字的用户,但其搜索范围要比关键词搜索引擎小很多。

搜索引擎的种类与优化方法

目前Internet上的搜索引擎数量极大丰富,类型日趋多元化,可以按照以下四个方面予以分类。

1.按检索机制划分

按检索机制可以将搜索引擎划分为关键词型、目录型和混合型搜索引擎。

(1)关键词型搜索引擎。

关键词型搜索引擎是指根据用户在检索界面的文本框中输入的检索词(组),将之与数据库中的索引记录进行匹配比较,依此来查找并返回用户所需信息的一种网络检索工具。这种搜索引擎通常借助于Robot之类的自动搜索程序,因此信息量大、更新及时;检索界面往往直观简洁、使用方便直接,而且绝大多数都支持布尔逻辑、截词运算、模糊检索和自然语言检索等检索技术,可以准确表示检索需求。此外,借助全文检索技术,可以实现网页内容全文检索,检索结果是包含检索词(组)的一小段文字以及文字所在网页的地址,因此是一种网页级搜索引擎。其缺点是返回的检索结果数量大,无关和冗余信息较多,用户必须从中进行筛选。

(2)目录型搜索引擎。

目录型搜索引擎,也被称为网络资源指南,是浏览式的搜索引擎,起源于Yahoo!,将网络信息资源按照一定的主题分类体系组织,用户通过逐层浏览,逐步细化来寻找合适的类别直至具体资源。目录型搜索引擎的特色在于专业信息人员的介入,以人工方式或半自动方式收集信息,信息人员编写网站的概述性简介,形成摘要信息,并将信息置于预先详细设计的分类目录体系中,用户获得的检索结果是网站的站名、地址和内容简介,因此是一种网站级搜索引擎。这种检索工具层次和结构清晰、易于查找;分类目录下的网站简介可以使用户一目了然,从而确定取舍;人工的介入确保了信息准确,导航质量高。但是它也存在许多问题,如分类目录体系不够完善与合理,人工介入引起维护量大,导致信息量少、更新不及时、查全率不高。

(3)混合型搜索引擎。

混合型搜索引擎是指同时提供关键词检索和分类目录浏览检索两种方式的网络检索工具,用户既可以直接输入检索关键词查找特定的具体资源,又可以逐层浏览目录了解某个领域范围的众多相关资源。在实际网络信息检索中,关键词检索得出的结果虽然多而全,但其没有目录式搜索引擎那样清晰的层次结构,信息来源繁杂。目录式搜索引擎将信息系统地分门归类,特别适合希望了解某一方面信息又不严格限于查询关键字的用户,但其搜索范围要比关键词搜索引擎小很多。鉴于关键词型和目录型的搜索引擎都存在各自的不足,将两者的优点结合起来,就诞生了混合型搜索引擎。目前大多数搜索引擎都同时提供关键词检索和分类目录浏览检索两种方式。

2.按收录内容划分

按收录内容的范围可将搜索引擎划分为综合型、专业型和专用型搜索引擎。

(1)综合型搜索引擎。

综合型搜索引擎,也称通用型搜索引擎,是以所有网络信息资源为检索对象,不限制主题范围和信息类型,利用它几乎可以检索到任何方面的网络信息资源。

(2)专业型搜索引擎。

专业型搜索引擎,也称垂直型搜索引擎,是专为查询某一方面、学科或主题的信息而产生的搜索引擎,如美国化学工业搜索引擎、化工Yahoo!、中国电力搜索引擎等。由于只收集某一特定学科或者主题范围内的信息资源,用更为详细和专业的方法对信息资源进行标引描述,且往往在检索机制中设计和利用与该专业领域密切相关的信息方法和技术,因而专业型搜索引擎具有针对性强、目标明确和查准率高的优势,有效地弥补了综合型搜索引擎对专门领域及特定主题信息覆盖率过低的问题,其作用和功能是综合型搜索引擎不可替代的。

(3)专用型搜索引擎。(www.xing528.com)

专用型搜索引擎是专门用来检索某一类型信息资源的搜索引擎,如专门检索电话、人名、个人电子邮件地址的名录搜索引擎,专门检索图像信息的图片搜索引擎,专门检索MP3音乐文件的音乐搜索引擎,专门检索地图的地图搜索引擎等。典型的专用型搜索引擎有查找电话号码的Switchboard(http:∥www.switchboard.com),查找地图的MapBlast(http:∥www.mapblast.com),查找图像的QBIC(http:∥www.qbic.almaden.ibm.com),等等。

3.按信息资源的媒体类型划分

按所收信息资源的媒体类型可以将搜索引擎划分为文本型和多媒体型搜索引擎。

(1)文本型搜索引擎。

文本型搜索引擎只提供纯文本信息的检索,也就是说这些搜索引擎把网页当作纯文本文件,或者只对网页中的纯文本内容进行分析,建立索引数据库。检索时,按照用户提供的检索词(组)进行匹配,包含有检索词的页面就是符合条件的检索结果。目前绝大多数搜索引擎都是基于文本的,并没有充分反映网页包含的所有信息,因此对网络上越来越多的多媒体信息的检索显得无能为力,检索结果单一,有时无法达到形象直观的效果。

(2)多媒体型搜索引擎。

多媒体型搜索引擎提供集文本、图像(形)、声音、视频、动画于一体的信息的检索。随着动画、图像(形)、音频和视频信息的增长,多媒体信息的查找成为搜索引擎的研究重点。目前多媒体型搜索引擎可分为基于文本描述的多媒体搜索引擎和基于内容的多媒体搜索引擎。

①基于文本描述的多媒体搜索引擎。这种搜索引擎是通过对含有多媒体信息的网站和网页进行分析,对多媒体信息的物理特征和内容特征进行著录和标引,把它们转换成文本信息或者添加文本说明,建立数据库,检索时主要在此数据库中进行精确匹配。一般来说,这些用于检索的信息包括文件扩展名、文件标题及其文字描述、人工对多媒体信息的内容(如物体、背景、构成、颜色特征等)进行描述而给出的文本标引词。

②基于内容的多媒体搜索引擎。这种搜索引擎直接对媒体自身的内容特征和上下文语义环境进行分析,由计算机自动提取多媒体信息的各种内容特征,如图像的颜色、纹理、形状等,声音的响度、频度和音色等,影像的视频特征、运动特征等,建立索引数据库。它和基于文本描述的多媒体搜索引擎的一个重要区别,就是以相似匹配来代替精确匹配。检索时,只需将所需信息的大致特征描述出来,就可以找出与检索提问具有相近特征的多媒体信息。

4.按包含搜索引擎的数量划分

按包含搜索引擎的数量可将搜索引擎划分为单一型和集合型搜索引擎。

(1)单一型搜索引擎。

单一型搜索引擎是指那些依靠自身资源和技术,独立提供网络信息检索的检索工具,它们自身有一套完整的信息收集、整理、索引和检索机制,为用户提供自己网络资源数据库中的信息,因而不可避免地会引起信息资源覆盖率较低。目前绝大多数搜索引擎都是单一型的,如搜狐新浪百度等。

(2)集合型搜索引擎。

集合型搜索引擎,也称多元搜索引擎,是包含了多个单一型搜索引擎,在统一的用户查询界面与信息反馈形式下共享多个搜索引擎的资源库,为用户提供信息服务的检索工具,因此是对搜索引擎进行搜索的搜索引擎。它与一般搜索引擎的最大不同在于它没有自己的资源库和信息采集系统,只是充当一个中间代理的角色,是一个由多个分布的具有独立功能的搜索引擎构成的虚拟整体。接受用户的查询请求后,将用户请求翻译成相应的搜索引擎的查询语法,并转交给多个搜索引擎进行同时处理,最后对多个搜索引擎返回的搜索结果进行整合处理后再返回给查询者。整合处理包括消除重复、重新排序等。这类搜索引擎的优点是查全率高,搜索范围更广,能够在尽可能短的时间内提供相对全面、准确的信息。集合型搜索引擎一般由检索请求提交机制、检索接口代理机制和检索结果显示机制三部分组成。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等;“接口代理”负责将用户的检索请求与不同搜索引擎进行交互;“结果显示”负责对所有源搜索引擎反馈的检索结果进行去重、合并、输出等处理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈