1.定义
元搜索引擎是把一个给定的查询发送到几个搜索引擎、Web目录及其他数据库,并收集和统一结果的一种网络服务器。它的主要优点是能够将许多信息源的结果结合起来,用户通过一个公共界面将相同的查询提交给各种不同的信息源。统一的结果中如何排序(有的甚至不排序),如何妥善地把用户查询转换成每个搜索引擎的特定查询语言和Web目录,各元搜索引擎的操作各不相同。由于采用了一系列的优化运行机制,能够在尽可能短的时间内提供相对全面、准确的信息,而且即使不能完全满足用户需求,仍可以作为相对可靠的参考源进行扩展搜索,因此元搜索引擎成为备受推崇的检索首选入口。其技术重心在于查询前的处理(检索请求提交机制和检索接口代理)和结果的集成。
2.特点
(1)信息覆盖面广。元搜索引擎通常调用它自己认为比较好的几个搜索引擎,并且提供给用户在一定范围内选择搜索引擎的功能。还有些元搜索引擎为用户支持更加专业的搜索引擎,比如MP3、视频的查找等。这使用户可以根据自己的喜好和要查询的内容,选择相应的搜索引擎。
(2)搜索结果的权威性和可靠性。元搜索引擎选调多个独立搜索引擎获取搜索结果,这不但获得了信息的互补,而且与独立搜索引擎相比增加了信息的精度和新鲜度。
(3)易维护性。元搜索引擎省掉了独立搜索引擎中的收集和存储网页、建立索引数据库的工作。它本身不需要去维护,只需知道它们的调用接口。它可以把主要精力放在搜索引擎的选择、查询请求的优化和搜索结果的优化上。通常的元搜索引擎都提供了相对应的优化机制。
(4)检索效率高。单个搜索引擎至多只能处理网上总信息量的16%,据Barker统计,用不同的搜索引擎进行类似查询,结果大约40%为完全不同的内容,而大约60%为一些同样的站点。元搜索引擎集成多个单个成员搜索引擎,可以一次性在多个独立的搜索引擎中并发查询,增加了检索的范围,扩大了查询的区域,信息覆盖率显著增加,因而能够获得较高的查全率。同时,元搜索引擎利用各种智能软件,根据用户要求对各搜索引擎返回的信息进行过滤,通过使用过滤器或改进算法对成员搜索引擎的查询结果进行处理,删除不合适或重复的网页,并对结果按关联度高低进行排序等,查准率会得到较大的提高。
3.基本结构
元搜索引擎由三部分组成,即检索请求提交机制、检索接口代理机制、检索结果显示机制,如图12-1所示。
(1)“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。
(2)“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式。
(3)“结果处理”负责所有源搜索引擎检索结果的去重、合并、输出处理等。
图12-1 元搜索引擎的基本结构图
4.工作原理(www.xing528.com)
元搜索引擎实际上是一种网络查询接口工具,它的工作原理相对较为简单。它没有自己的网页索引数据库,只给用户提供一个集成的查询界面,用户的查询要求经它加工处理后转发给相应的一个或多个独立搜索引擎完成,返回的检索结果经它处理后以统一的显示格式提供给用户。熟悉联机检索系统的人不难发现,元搜索引擎的工作方式特别类似联机系统的“网关”或“前端系统”。用户向元搜索引擎发出检索请求,它将该请求整理为相应的检索指令,发往多个单搜索引擎。各单搜索引擎执行检索指令后将检索结果传送给元搜索引擎,经过整理后再传送给用户。
5.主要功能
(1)搜索引擎的选择。一般允许用户选择搜索引擎,但有些只有固定的搜索引擎。虽然一般都可以调用几个或几十个单元搜索引擎不等,但一次被并行调用的个数大多在3~8个。对单元搜索引擎的选择可以利用一定条件自动选择的实现方式:
“选择最好”模式。采取的方法有,例如它可跟踪一定时期内各类检索式对单搜索引擎的命中记录数量统计分布,根据该分布来确定相对于一定主题“最好”的搜索引擎。或者,对单搜索引擎的索引数据库进行某种方式的分类统计,建立类目与资源数量的对应关系,并据此确立“最好”的搜索引擎。
“选择最快”模式。①随机产生:以并行方式将检索指令传送给若干搜索引擎,选择返回速度最快的三个搜索引擎的结果,将其组织成检索结果。②先验式:开发者在大量测试数据的基础上,制定相应的控制目录,标明某一类信息与某些搜索引擎检索速度的对照关系。用户提交检索式后,元搜索引擎首先确认它隶属的类别范畴,然后对照控制目录选择最快的前几个搜索引擎。
(2)功能较强的元搜索引擎一般能采用并行和串行处理相结合的方式。
(3)检索指令的转换。由于每个搜索引擎都有自己的检索语言,因此元搜索引擎需要将用户通过统一形式输入的检索指令转换为各单搜索引擎的具体指令,这可利用“全局/局部指令字典”来实现。目前这种转换尚未成熟。
(4)检索结果的转换。由各搜索引擎不同的检索结果的显示形式转换为统一的显示格式。协调各自的差异,对有些数据予以处理,还原需去重、排序等。一般并联处理方式按搜索引擎来源的顺序排列,不加处理,由用户比较、选择使用;串联处理方式将多个检索结果进行合并、去重、按新的相关度标准重新排序输出。
(5)查询操作大多仅支持简单的布尔逻辑运算。
(6)查询界面逐渐致力于满足用户进行查询操作的个人特制化要求,如搜索引擎的选择,命中条数、查询时间限制、显示格式等的设定等。
6.类型
目前具有元搜索引擎性能的搜索引擎有几十种。按照工作方式可以分为两大类。
(1)并行处理。这类搜索引擎是利用唯一和确定的检索界面,实现对多个单搜索引擎索引数据库进行检索,并将检索结果以统一格式显示。如Metacrawler、Savvysearch、Profusion等都是这类搜索引擎,它们的特征在于统一检索界面、检索指令转换、统一结果的组织与显示。
(2)串行处理。这类搜索引擎的用户界面以任意顺序或分类罗列多个(一般都是数十个甚至更多)单搜索引擎,用户可通过这个界面了解有关单搜索引擎和实际连接选择的搜索引擎。但只提供各单搜索引擎的介绍信息和物理连接机制,没有统一的检索语言和结果格式,而是以各成员搜索引擎的检索指令和数据格式直接面对用户,例如All-in-One搜索引擎。
严格来说,它们只是搜索引擎的列表,具有以下特点:仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎;往往只能选择一个搜索引擎进行检索;对各单搜索引擎检索界面的复制可能是部分的或全部的;直接利用所选搜索引擎的显示格式呈送给用户。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。