首页 理论教育 搜索引擎算法揭秘-搜索引擎爱好者

搜索引擎算法揭秘-搜索引擎爱好者

时间:2023-12-04 理论教育 版权反馈
【摘要】:Yahoo就是这类搜索引擎的代表。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。元搜索引擎的搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。3 搜索引擎的性能指标 搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。

搜索引擎算法揭秘-搜索引擎爱好者

1搜索引擎的发展
1990年以前,没有任何人能实现搜索互联网的功能。互联网发展早期,信息量较少,互联网用户多为专业人士,那时查找信息要相对容易。伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的搜索引擎便应运而生了。所有搜索引擎的祖先,都可以追溯到1990年由蒙特利尔McGill大学学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但因为当时网络的主要用途是传输文件,网络中的文件传输还是相当频繁。由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
1993年,美国内华达System Computing Services大学开发了一个与Archie非常相似的搜索工具,这个搜索工具既能够检索文件也能够检索网页。
1994年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。
1998 年,斯坦福大学的两位博士生 Larry Page 和 Sergey Brin 开发出了现在世界上最大的搜索引擎——Google。通过对 20 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。现在,Google 每天需要为世界各国用户提供 1.5 亿次查询服务。
1997年10月29日,北大天网正式在CERNET上向广大Internet用户提供Web信息导航服务,它是由北大计算机系网络与分布式系统研究室开发的国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,受到学术界广泛好评。
2000年1月,两位北大校友,前Infoseek资深工程师李彦宏与加州大学伯克利分校博士后徐勇在北京中关村创立了百度(Baidu)公司。历经5年的高速发展后,在近两年时间里,百度高居全球网站流量前八名的位置,已经成为全球十大网站之一。百度每天接受着超过一亿人次来自各个方面的内容检索请求,中国9400万网民几乎每天使用1次百度。“有问题百度一下”已经成为中国网络流行语之一。
2002年,中国搜索(原慧聪搜索)正式进入中文搜索引擎市场。在一年多的时间里,就发展为全球著名的中文搜索引擎服务商,为新浪搜狐网易、TOM等知名门户网站提供搜索引擎技术。慧聪搜索引擎的优势是从人工审核网站信息源和设置禁查词两个方面入手,有效地过滤了不良信息,降低了垃圾信息的含量。在互联网实时新闻搜索方面,慧聪也实现了网络新闻的实时检索。
2 搜索引擎的工作原理
简单的说,搜索引擎是通过从互联网上提取的各个网站的信息来建立数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类:
2.1目录式搜索引擎:是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。
2.2机器人搜索引擎:Robot(机器人)一词大家并不陌生,Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。搜索引擎主动派出称为蜘蛛(Spider)的机器人程序定期搜索(比如Google一般是28天),对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。Google、北大天网、百度(Baidu)就是这类搜索引擎的代表。
2.3元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。第一个元搜索引擎,是美国华盛顿大学硕士生Eric Selberg 和 Oren Etzioni 开发的 Metacrawler。元搜索引擎的搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。ByteSearch(http://www.bytesearch.com)、Mamma(http://www.mamma.com)、Profusion(http://www.profusion.com)就是这类搜索引擎的代表。
3 搜索引擎的性能指标
搜索引擎的目标就是在非常短的时间内搜索的信息全面并且准确。传统信息检索系统的性能参数——召回率和精度同样也可以衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低;精度高时,召回率低。因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。对于网民来说,互联网上的信息不是不够,而是“过剩”,如何精确查找到信息是大家所关心的问题。因此,目前的搜索引擎系统都非常关心精度。
4 搜索引擎面临的挑战
目前搜索引擎是网络上被使用频率最高的服务项目之一。随着Internet的强势发展,网上庞大的数字化信息和人们获取所需信息能力之间的矛盾日益突出。国际数据公司(IDC)曾公布的一份报告表明,被大肆宣传为“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然是无法突破的难题。搜索引擎越来越不能满足挑剔的网民们的各种信息需求,这表现在以下几个方面:
收集的网页数量和其数据库的更新速度存在着不可调和的矛盾。用户经常无法打开查询的结果。网络信息时刻变动,实时搜索几乎不可能。就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。网络信息收集与整理是搜索引擎工作的重要一部分。搜索引擎需要定期不断地访问网络资源。目前网络带宽不足,网络速度不够理想,遍历如此庞杂的网络时间花费是非常庞大的,这就是不能实时搜索的原因。

 对多媒体内容的处理尚不成熟。迄今为止,搜索对象主要是文本。基于语义的多媒体搜索技术还不成熟,比如搜索图片时还只能通过周围相关的文字进行判断,而无法根据图片本身的信息提供检索。多媒体技术的发展,对搜索引擎提出了更多的要求。人们期望引擎不仅能挑出自己需要的文章,还能挑出自己所关心的图片、电影、音乐等。
搜索引擎的“智能” 有待提高。 一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自动排序软件Spiders蜘蛛程序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用HTML格式的信息将无法被外部的搜索引擎查到。这就是为什么像PPT、Word、PDF、电子邮件等文件,以及ERP、CRM等应用软件的数据库的信息会长期的“沉没”在信息的海底中。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理HTML(Hyper Text Markup Language,超文本标志语言),又能处理SGML(Standard for General Markup Language,通用标志语言标准)和XML(Extended Marked Language,扩展标志语言)文档以及其他类型的文档,譬如Word、WPS等。智能搜索引擎应该可以支持多语言搜索。
搜索引擎应更好地支持动态网页,许多蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大事所趋,解决动态网页查找的问题已经迫在眉睫。
如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。
5 特色搜索引擎
在网络信息多样化和网络用户多样化的呼唤下,人们希望在网络上找到更丰富更实用的资源,不再漫无目的地查找,特色搜索引擎便应运而生了。
寻人搜索引擎。如果您想在网上寻找一位老朋友,那么可以考虑使用Yahoo提供的寻人搜索引擎(http://people.yahoo.com)。由于Yahoo的用户群极为庞大,大多数网民都拥有或曾经拥有Yahoo的账户,另外其国际化特征明显,用户群包含了全世界各国的网民。因此,它应该是大范围寻人的较好选择。尤其当您寻找的人正好在某些非英语国家,找不到专门的搜索引擎,Yahoo的优势就更为明显。
图像搜索引擎。图像搜索引擎虽然还没有成熟的产品,但是这项研究工作却紧锣密鼓的进行着。据称,美国Purdue大学的研究人员已经开发出了一种新的搜索引擎,这种搜索引擎不再使用关键词文本进行搜索,而是使用图像或者草图进行搜索。不就的将来,用户自己画一幅草图,搜索引擎就可以对数据库进行搜索,并找到所有与草图类似的图像。不过,这要求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便,在生物、化学、医学等领域都可能发挥极大的作用。
多媒体搜索引擎。FAST(http://multimedia.alltheweb.com)是国外著名的多媒体搜索引擎,很多同类搜索引擎都会引用此引擎的内容。在FAST搜索多媒体文件,您可以同时搜索图像、音频、视频等多种格式的多媒体文件,图像支持JPEG、GIF、BMP三种格式,音频支持MP3、Wave、AIFF、RealAudio、MIDI五种格式,视频支持AVI、DivX、QuickTime、MPEG四种。FAST为每一个搜索结果提供预览和说明,同时还有可供下载的直接链接,以及该文件所在网站的地址。
房产地图搜索引擎。房产地图搜索引擎是结合地理信息系统(GIS)、数据库系统(DBMS)和动态Web软件技术开发研制,可以通过智能化地理信息分析查找特定范围内的特定目标。例如用户可以选择购房愿望:价格、面积、户型、房屋布局、地理位置、周边商业交通、自然环境、小区状况等,在互联网上进行查询。引擎立即会将所有满足条件的房源显示出来,并可以任意放大、缩小、移动房源地图。
美国华盛顿大学科学家正在研究一种新型搜索引擎——一搜得(Know It All ),它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理。目前的搜索引擎使用起来其实并不“方便”。如果上网用搜索引擎查找和搜集想要的内容,将是一件十分单调乏味的工作,因为你必须访问大量网页,检索大量资料数据。但新一代搜索引擎技术将有可能仅“按一次”鼠标,就能找出你想查找的内容。它的研发者埃齐奥尼说:“这种方法很奇特,它可将一大堆网页中的有关信息以目录表格的形式放在一个单一网页上。”他们的最终目标是让“Know It All ”能回答诸如“列表指出1900年以前出生的全英科学家”这样的问题。

搜索引擎的存在使得每个人与任何问题的答案之间的距离只有点击一下鼠标那么远。搜索引擎改变了我们上网的习惯,改变了我们工作方式甚至是生活方式。搜索引擎正在不断创造奇迹,而我们正在享受着奇迹。


参考文献
[1] 张兴华.搜索引擎技术及研究[J].现代情报,2004,(4).
[2] 唐铭杰.论搜索引擎的发展概况及发展趋势[J].情报杂志,2001,(5).
[3] 阳小华.分布式WWW信息收集技术[J].计算机工程与应用,2000,(5).

  在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

  当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

........................................................................................

  与全文搜索引擎相比,目录索引有许多不同之处。(www.xing528.com)

  首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

  其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)

  此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

  最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

  目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

  目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈