【摘要】:它不是使用我们常见的各种数据库,而是按照一定编码记录在硬盘上,其实也就是一个自己开发的数据库系统。就如图书馆将书分类放置的过程,网页就像一本书,图书馆的查询系统只是帮我们找到这本书,它知道书名和大致内容,但是不知道具体内容。当我们在搜索引擎里面打开快照时,就是把这本书即“网页”给找出来了。
这个数据库系统很大,大到需要几万、几十万台服务器来存储。它不是使用我们常见的各种数据库,而是按照一定编码记录在硬盘上,其实也就是一个自己开发的数据库系统。它的最大特点是索引系统极其发达,它是根据“最小语境含义表达单位(语境根)”来进行排序的。在这里指出一个常见的误区,很多人以为所有搜集并整理后的数据保存在数据库里面了,然后用户在搜索时到这个数据库去检索里面的压缩数据,这其实是大错特错的。早期以及一些小的搜索引擎确实是这样,但是搜索引擎的核心技术不是在查询上面,而是在分析部分,用户查询时,查询系统检索的是预处理系统分析的结果。就如图书馆将书分类放置的过程,网页就像一本书,图书馆的查询系统只是帮我们找到这本书,它知道书名和大致内容,但是不知道具体内容。当我们在搜索引擎里面打开快照时,就是把这本书即“网页”给找出来了。
试想一下,面对海量的数据,什么遍历查询算法具备这样的能力?一秒检索1000GB的数据,而且还是几百万人、几千万人同时来的,这需要什么样的硬件才能达到?根本不可能实现。(www.xing528.com)
而事实是那些信息已经检索好了,只是调用下而已。比如说搜索引擎数据库是10000GB,而索引是1GB的话,当搜索时,查询的是这个1GB的索引而已。而且这个索引一开始就是按照“最小语境含义表达单位(语境根)”来排序的,所以找起来很简单。很多人总以为搜索引擎对查询要求很高,其实相对于其他部分而言,搜索引擎里面最没有技术含量的就是查询,因为一切都是现成的。“最小语境含义表达单位(语境根)”越是完善,越是符合用户的查找习惯,查询就越是简单。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。