超链分析是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。就如科学论文通过索引被引用次数的多寡来确定一篇论文的好坏,超链就是对页面的引用,作弊网页没价值,不可能被很多网站主动超链。超链上的文字就是对所链接网页的描述,通过这个描述可以计算出超链和页面之间的相关度。总之,“超链上的描述是别人怎样评价你。”
超链分析要解决的是文件与搜索关键词的相关性。除了文件本身对关键词的引用外,还需要考虑反向链接中的关键词。具体来说,一个文件被索引进数据库时,会连同指向这个文件的超链接,以及每个超链接当中使用的锚文字(链接文字),一同记录在案。而搜索词也会建立一个数据库,每个词连同含有这个词的超链接,以及这些超链接所指向的文件一同被记录在案。
当一个关键词被搜索时,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面,这是基本思路,当然还有其他变量考虑进去。比如说搜索字符串含有几个词的时候,每一个词都是搜索矢量的一个维度。而谷歌的PR专利显然是专注在已经应用了超链分析之后还不能解决的问题。谷歌明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值。
你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接投票值相同。而谷歌Page Rank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及Page Rank就越高。
谷歌的专利申请当中给出了具体怎样计算这一重要性指标,他们取名为网页级别。网页级别的计算需要进行多个循环的替代计算,才能得到近似于最终结果的PR值。(www.xing528.com)
所以归纳以上分析可以看出:
1.超链分析。除了文件本身对关键词的引用外,超链分析还考虑了反向链接中的关键词。当一个关键词被搜索时,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。
2.Page Rank算法。指同一个网页的链接越多,这个被指向的网页的相关性及权重就越高,从而也就会排在更靠前的位置。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。