首页 理论教育 百度的超链分析及相关搜索功能优化

百度的超链分析及相关搜索功能优化

时间:2023-07-02 理论教育 版权反馈
【摘要】:百度除了用超链分析排名外还开展竞价排名,同时具有网页快照、相关搜索、中文人名识别、简繁体中文自动转换、网页预览等功能,还可以进行专业的MP3搜索、Flash搜索、新闻搜索、图片搜索、信息快递搜索等。利用超链分析技术,用户将接受一种根据某种标准进行网页排名的信息服务,进而演变成为各网站想尽办法追求网页排名的商业活动。

百度的超链分析及相关搜索功能优化

1.基本原理

超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网页,其价值就越高,就越应该在结果排序中排到前面。超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容及这些内容本身之间的关联程度和一个站点在整个网络上的关联程度来确定的。

使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的URL、Anchor Text,甚至链接周围的文字。所以,有时,即使某个网页A中并没有某个词,比如“软件”,但如果有别的网页B用链接“软件”指向这个网页A,那么用户搜索“软件”时也能找到网页A。而且,如果有越多网页(C,D,E,F……)用名为“软件”的链接指向这个网页A,或者给出这个链接的源网页(B,C,D,E,F……)越优秀,那么网页A在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。

2.工作步骤

(1)从互联网上抓取网页

专门用于检索信息的Robot程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新出现的网页变得越来越困难。因此,在Wanderer的基础上,一些编程者将传统的Spider程序工作原理做了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。

(2)建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在的URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

(3)索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

3.搜索效果(www.xing528.com)

搜索引擎Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万乃至几十亿的网页索引,数据量达到几千GB甚至几万GB。但即使最大的搜索引擎建立超过20亿网页的索引数据库,也占不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。

人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。

使用超链分析的搜索引擎未能收录的网页有:Spider未能正确处理的网页性质及文件类型(如Flash、Script、Java Script,某些动态网页及帧、数据库);没有主动登录搜索引擎而且没有指向链接的孤岛网页;Spider访问时因为某些原因正好是死链接的网页;被认为是劣质页而不抓;因为色情、反动、Spam等问题而不抓的非法网页;需要输入用户名、密码方可打开的网页;网站用Robots协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及抓取的新网页;Gopher、Newsgroups、Telnet、NP、WAIS等非HTTP信息的网页。

任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。这些网页通常由CGL、PHP、ASP等程序产生,技术上较先进,但不适合搜索引擎的“蜘蛛”程序。虽然目前有的大型搜索引擎(如谷歌)已具备检索动态网页的能力,但相当一部分引擎还是不支持它的。而且即使是能够索引动态网页的谷歌,也在多个场合中明确表示不保证检索全部的动态网页。

4.超链分析技术的应用

超链分析技术已为世界各大搜索引擎普遍采用,百度搜索引擎使用了高性能的“网络蜘蛛”,程序自动在互联网中搜索信息,可定制高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中文互联网拥有天然优势,支持搜索1.3亿个中文网页,是现在最大的中文搜索引擎。并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新。百度除了用超链分析排名外还开展竞价排名,同时具有网页快照、相关搜索、中文人名识别、简繁体中文自动转换、网页预览等功能,还可以进行专业的MP3搜索、Flash搜索、新闻搜索、图片搜索、信息快递搜索等。

5.存在的缺陷

用户在搜索关于某些内容的有效信息时,最大的特点是各异性。利用超链分析技术,用户将接受一种根据某种标准进行网页排名的信息服务,进而演变成为各网站想尽办法追求网页排名的商业活动。

随着海量的网页被收集回来,用姓名、电话、单位名称或网名都可以搜索到许多含有此关键词的信息,这其中有不少侵权、侵犯隐私、泄露机密的信息,尤其是大量论坛的帖子被收录,不少帖子言论含有攻击的成分。因此,如何及时处理掉这些链接就成为搜索引擎急待解决的问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈