首页 理论教育 搜索引擎基本概念、分类的介绍

搜索引擎基本概念、分类的介绍

时间:2023-06-08 理论教育 版权反馈
【摘要】:1)全文搜索引擎全文搜索引擎是目前广泛应用的主流搜索引擎。全文搜索引擎一般由信息采集、建立索引和检索三个部分组成。搜索引擎整理信息的过程称为“建立索引”。索引是区别搜索引擎好坏的重要标志。3)元搜索引擎元搜索引擎是在接受用户查询请求时,同步在其他多个引擎上进行搜索,并将结果返回给用户。图3.1元搜索引擎首页4)垂直搜索引擎垂直搜索引擎是专门针对某一个行业

搜索引擎基本概念、分类的介绍

1.搜索引擎基本概念

索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序自动从互联网搜集信息、组织信息和处理信息后,将与用户检索相关的信息展示给用户的系统。互联网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎则为用户绘制了一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,检索与用户查询条件相匹配的记录,并按一定的排列顺序返回结果。

2.搜索引擎分类

搜索引擎可分为全文搜索引擎、分类目录搜索引擎、元搜索引擎与垂直搜索引擎等几类。

1)全文搜索引擎

全文搜索引擎是目前广泛应用的主流搜索引擎。国外的全文搜索引擎典型代表是Google,国内则有最大中文搜索引擎——百度。全文搜索引擎通过自动方式分析网页的超链接,依靠超链接和HTML或XML 等代码分析获取各个网站的信息(以网页文字为主),按事先设计好的规则对其进行分析整理以形成索引,并检索与用户查询条件相匹配的记录,最后按一定的排列顺序返回结果。全文搜索引擎一般由信息采集、建立索引和检索三个部分组成。

(1)信息采集(Information Collection)。信息采集工作由搜索器和分析器共同完成。搜索引擎利用“网络蜘蛛”(Web Spider)程序,又称为“网络爬虫”(Web Crawler)程序或“网络机器人”(Web Robot)程序的自动搜索功能来查询网页上的链接。网络机器人实际上是一些基于Web的程序,遍历指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。网络机器人每遇到一个新的网页,都要搜索它内部的所有链接。所以从理论上讲,如果为网络机器人建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,网络机器人将能够采集到整个Web空间的网页。严谨的、结构化的、可读性强的、错误少的HTML代码更容易被网络机器人所采集和分析。网络机器人有专门的搜索链接库,在搜索相同超链接时会自动比对新旧网页的内容和大小,如果一致则不予采集。

(2)建立索引(Indexing)。搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。建立索引可以采用通用的大型数据库,如Oracle、Sybase等,也可以自己定义文件格式进行存放。建立索引是搜索中较为复杂的部分,涉及网页结构分析、分词、排序等技术,好的索引能极大地提高检索速度。为了保证索引数据库信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性。索引数据库更新是通过启动“网络机器人”对Web空间重新搜索来实现的。索引是区别搜索引擎好坏的重要标志。

(3)检索(Searching)。检索是用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级(Page Rank),返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同关键词,得到的查询结果的排序是不同的。

全文搜索引擎的特点是搜全率比较高。

2)分类目录搜索引擎

分类目录搜索引擎也称为分类检索引擎,是互联网上最早提供WWW 资源查询的服务,主要是指通过人工的方式收集和整理互联网上的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成分类树形结构索引。分类目录搜索引擎的整个工作过程同样分为信息采集、建立索引和检索,只不过分类目录搜索引擎的信息采集、建立索引主要是由人工完成。

分类目录搜索引擎一般都由专门的编辑人员负责收集网站的信息。随着网络站点激增,现在一般是由站点管理者递交自己的网站信息给搜索引擎,然后由分类目录搜索引擎的编辑人员审核递交的网站资料以决定是否收录该站点。分类目录搜索引擎会因为网站导航不明确、网站设计不佳、死链接、网站不正常运转、语法错误、文字不流畅、没有联系电话、没有商业地址和多次重复提交等原因而拒绝收录该站点。如果该站点审核通过,分类目录搜索引擎的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个索引数据库中。用户在查询信息时,可以按照关键词搜索,也可以按照分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎的一样,也是根据既定规则排列网站。需要注意的是,分类目录搜索引擎的关键词查询只能在网站的名称、网址和简介等内容中进行搜索,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录搜索引擎就像一个电话号码簿一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址。分类目录搜索引擎一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容)。某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序排列。(www.xing528.com)

分类目录搜索引擎虽然有搜索功能,但严格意义上不能被称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不用依靠关键词进行查询。国内分类目录搜索引擎中具有代表性的是搜狐网易搜索引擎。

3)元搜索引擎

元搜索引擎是在接受用户查询请求时,同步在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有infospace和dogpile等,中文元搜索引擎中具有代表性的有好搜,如图3.1所示。在搜索结果排列方面,有的元搜索引擎直接按来源引擎排列搜索结果,有的元搜索引擎则按自定的规则将结果重新排列组合

图3.1 元搜索引擎首页

4)垂直搜索引擎

垂直搜索引擎是专门针对某一个行业的专业化搜索引擎,是通用搜索引擎的细分和延伸,它对网页库中的某类行业的信息进行处理、整合,定向分析字段,抽取出需要的数据进行处理后再以某种形式返回给用户。常见的行业性网站的搜索引擎都是属于这一类。垂直搜索引擎保证了信息的收录齐全与更新及时、深度好、检出结果重复率低、相关性强、查准率高。

3.搜索引擎市场现状及未来

搜索引擎长盛不衰的最根本原因之一是搜索者会购买产品:33%的搜索引擎的搜索者在购物,44%的网民利用搜索引擎作为购物调研工具。根据中国互联网络信息中心(CNNIC)发布的第37次《中国互联网络发展状况统计报告》的统计数据显示:截至2015年12月底,我国网民数量达6.88亿,搜索引擎用户规模达到5.66亿,使用率为82.3%,占网民数量的84.73%;手机搜索用户数达4.78亿,使用率达77.1%,仅次于即时通信网络新闻。2014年,我国搜索引擎市场规模为599.6亿元,同比增长51.9%,较2013年有较大幅度回升。未来我国搜索引擎市场仍将以较快的幅度增长,到2018年市场规模预计将达到1 676.4亿(图3.2)。以2014年为例,我国搜索引擎企业增长的最大动力是来自于移动端收入的增长,移动端的增长贡献率(移动端收入的增长规模/搜索企业整体收入的增长规模)占到55.2%。可见移动端贡献了超过半数的增长,已成为市场增长的主要推动力,原因如下:其一,网民的互联网生活重心向移动端转移,移动搜索场景极大丰富,用户增量、增速都超过搜索市场整体;其二,搜索服务提供商的移动业务营收占比持续提升,正在成为支柱业务。以百度为例,财报数据显示其移动业务营收占比已经从2013年第二季度的10%增至2015年第一季度的50%;搜狗的也在2015年第一季度达到了22%。

图3.2 2006—2018年我国搜索引擎市场规模

搜索引擎通过将自然语言识别、人工智能与机器学习等技术进行融合,推出以交互式问答机器人为典型代表的搜索引擎深度问答产品,使网民更准确、更快速地获取知识类信息;搜索的输入模式更加多元化,除了语音、图片输入,还结合了触控式硬件设备,不仅创新搜索体验,还在推动互联网普遍服务方面发挥了积极作用。搜索引擎服务在连接用户与服务环节中发挥桥梁作用,作为关键支撑技术和基础连接服务,推动互联网生态链形成。而在实物与服务产品交易方面,搜索引擎推出直达服务,企业网店可以跳过搜索结果页,直接将产品和服务呈现给用户;搜索引擎通过面向用户提供“一站式生活服务搜索,从而对接入搜索平台的企业提供云存储、云计算、云运营管理工具等增值服务,并基于用户属性和特征进行精准推送,帮助企业开展营销,打造O2O 闭环。因此搜索引擎营销的商业价值得到了我国企业的广泛认可和重视,搜索引擎营销市场潜力很大。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈