首页 理论教育 搜索引擎的分类和优化方法

搜索引擎的分类和优化方法

时间:2023-07-19 理论教育 版权反馈
【摘要】:目前,互联网上的搜索引擎数量极大,按不同的分类方式可以划分为不同类型的搜索引擎。文本型搜索引擎只提供纯文本信息的检索,即这些搜索引擎只把网页当作纯文本文件,或者只对网页中的纯文本内容进行分析,建立索引数据库。该引擎将网络信息资源按照一定的主题分类体系收录在索引数据库当中,用户可以通过逐层浏览、逐步细化来寻找合适的类别直至具体资源。目前,大多数搜索引擎都采用这种方式,其优点是检全率高、检准率高。

搜索引擎的分类和优化方法

目前,互联网上的索引擎数量极大,按不同的分类方式可以划分为不同类型的搜索引擎。

1.按所收录信息资源的媒体类型划分

按所收录信息资源的媒体类型划分,搜索引擎可以分为文本型搜索引擎和多媒体型搜索引擎。

(1)文本型搜索引擎。

文本型搜索引擎只提供纯文本信息的检索,即这些搜索引擎只把网页当作纯文本文件,或者只对网页中的纯文本内容进行分析,建立索引数据库。检索时,按照用户提供的检索词(组)进行匹配,包含有检索词的界面就是符合检索条件的检索结果。目前,大多数搜索引擎都是基于文本的,并没有充分反映网页包含的所有信息,所以这类搜索引擎对网络上越来越多的多媒体信息的检索显得无能为力,检索结果也单一,有时无法达到形象、直观的效果。

(2)多媒体型搜索引擎。

多媒体型搜索引擎对集文本、图像(形)、声音、视频、动画于一体的信息提供检索功能。随着动画、图像(形)、音频和视频信息的快速增长,多媒体信息的检索已成为搜索引擎的研究重点。目前,多媒体型搜索引擎可分为基于文本描述的多媒体型搜索引擎和基于内容的多媒体型搜索引擎。

①基于文本描述的多媒体型搜索引擎。

基于文本描述的多媒体型搜索引擎是通过对含有多媒体信息的网站和网页进行分析,对多媒体信息的物理特征和内容特征进行著录和标引,把它们转换成文本信息或者添加文本说明建立索引数据库,检索时再在此数据库中进行精确匹配。一般来说,这些用于检索的信息包括文件扩展名、文件标题及其文字描述、人工对多媒体信息的内容(如背景、构成、颜色特征等)进行描述而给出的文本标引词。

②基于内容的多媒体型搜索引擎。

基于内容的多媒体型搜索引擎直接对多媒体自身的内容特征和上下文语义环境进行分析,由计算机自动提取多媒体信息的各种内容特征(如图像的颜色、纹理和形状;声音的响度、频率和音色;影像的视频特征、运动特征等)建立索引数据库。它和基于文本描述的多媒体型搜索引擎的重大区别,就是以相似匹配来代替精确匹配。在检索时,只需将所需信息的大致特征描述出来,就可以找出与检索需求具有相近特征的多媒体信息。

2.按所收录内容划分

按所收录内容划分,搜索引擎可分为综合型搜索引擎、专业型搜索引擎和专用型搜索引擎。

(1)综合型搜索引擎。

综合型搜索引擎,也称为通用型搜索引擎,以所有网络信息资源为检索对象,不限制主题范围和信息类型。使用这类搜索引擎在互联网上几乎可以检索到任何方面的网络信息资源。

(2)专业型搜索引擎。

专业型搜索引擎,也称为垂直型搜索引擎,是专为查询某一方面、某一学科或某一主题的信息而产生的搜索引擎,如中国电力搜索引擎、美国化学工业搜索引擎等。由于只收集某一特定学科、领域或主题范围内的信息资源,用更为详细和专业的方法对信息资源进行标引描述,并且在检索机制中设计和利用与该专业领域密切相关的信息方法和技术,因此,专业型搜索引擎具有针对性强、目标明确和查准率高的优势,可以有效地弥补综合型搜索引擎对专门领域及特定主题信息覆盖率过低的问题,其作用和功能是综合型搜索引擎不可替代的。(www.xing528.com)

(3)专用型搜索引擎。

专用型搜索引擎是指专门用来检索某一类型信息资源的搜索引擎,如专门检索图像信息的图片搜索引擎、专门检索MP3音乐文件的音乐搜索引擎、专门检索地图的地图搜索引擎等。

3.按检索机制划分

按检索机制划分,搜索引擎可分为全文型搜索引擎、目录型搜索引擎和混合型搜索引擎。

(1)全文型搜索引擎。

全文型搜索引擎是指能够对各网站的每个网页中的每个词进行搜索的一种引擎,它使用关键词匹配方式检索。用户在检索界面的文本框中输入检索词(组)时,系统通过“蜘蛛机器人自动在选定的范围内进行检索,并将所检索到的信息自动标引导入索引数据库中,匹配所检范围内的网页并向用户输出匹配结果。这种搜索引擎检全率高、信息量大、更新及时;检索界面往往直观简洁、使用方便;绝大多数都支持布尔逻辑、截词运算、模糊检索、自然语言检索等检索技术,可以准确表达用户的检索需求。其最大缺点是,返回的检索结果数量级太大,无关和冗余的信息较多,用户必须从检索结果中筛选出自己真正所需要的有用信息。

(2)目录型搜索引擎。

目录型搜索引擎,也被称为目录导航式搜索引擎,是浏览式的搜索引擎。该引擎将网络信息资源按照一定的主题分类体系收录在索引数据库当中,用户可以通过逐层浏览、逐步细化来寻找合适的类别直至具体资源。它的特色在于专业信息人员的介入,以人工方式或半自动方式收集信息,信息人员编写网站的概述性简介、形成摘要信息,并将信息置于预先详细设计的分类目录体系中,用户可以获得的检索结果是网站的站名、地址和内容简介等信息,因此它是一种网站级的搜索引擎。这种搜索引擎检准率高、层次和结构清晰、易于查找;分类目录下的网站简介可以使用户一目了然,从而确定取舍;人工的介入确保了信息准确,导航质量高。但是它也存在许多缺点:分类目录体系不够完善与合理、人工介入引起维护量大导致信息量少、更新不及时、查全率不高等。

(3)混合型搜索引擎。

混合型搜索引擎是指能同时满足全文检索和分类目录浏览检索两种方式的网络检索工具。用户既可以直接输入检索关键词查找特定的具体资源,又可以逐层浏览目录了解某一领域、学科或专业的众多相关资源。在实际的网络信息检索过程中,关键词检索返回的结果虽然多而全,但其没有目录型搜索引擎那样清晰的层次结构,信息来源非常繁杂;目录型搜索引擎将信息系统地分门别类,特别适合希望了解某一方面信息又不严格限于查询关键词的用户,但其搜索范围要比关键词(全文)型搜索引擎小得多。将这两种搜索引擎结合起来,取其精华,就诞生了混合型搜索引擎。目前,大多数搜索引擎都采用这种方式,其优点是检全率高、检准率高。

4.按其他方式划分

(1)按信息服务对象和规模划分,搜索引擎可分为综合门户搜索引擎和垂直搜索引擎。

(2)按获取信息的方法划分,搜索引擎可分为独立搜索引擎、元搜索引擎和网络搜索引擎。

(3)按自动化程度划分,搜索引擎可分为智能搜索引擎和非智能搜索引擎。

无论哪种分类方法,其目的都在于从不同的角度加深对搜索引擎的理解与应用,从而使用户能更全面、更准确、更有效率地查找到自己所需要的资源。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈