首页 理论教育 搜索引擎技术:云计算与大数据应用研究

搜索引擎技术:云计算与大数据应用研究

时间:2023-11-16 理论教育 版权反馈
【摘要】:从广义上说,搜索引擎等同于信息检索,它是指以某种方式组织信息,根据用户的需要查找相关信息的过程和技术。搜索引擎通常被称为Web搜索引擎。一般来说,搜索引擎的分类标准主要有三种,即学术分类、需求分类和行业分类。这些都是搜索引擎面临的核心问题。如何自动发现作弊页面并对其进行惩罚,已成为当前搜索引擎的一个重要组成部分。从目前公布的数据来看,最大的搜索引擎只能获得网页总数的40%左右。

搜索引擎技术:云计算与大数据应用研究

(一)概览

搜索引擎是一个信息检索系统,它从各种业务或应用系统收集数据,存储、处理和重组数据,为用户提供查询和结果显示。在获取大量数据后,在数据存储系统中实现数据管理是必然的步骤和重要工具。当人们面对大数据时,可以通过输入简单的查询语句来获取所需的信息集。

从广义上说,搜索引擎等同于信息检索,它是指以某种方式组织信息,根据用户的需要查找相关信息的过程和技术。狭义信息检索是信息检索过程的后半部分,即从信息搜集中发现所需信息的过程,即信息查询过程。

狭义上的搜索引擎又称网络搜索,百度谷歌等都属于这一类。因特网上的网页总数已超过50亿页,每月增加近1000万页。Web检索的内容非常丰富,有网页、文档、语音、视频等。文件类型的文件,音频/视频也是多种多样的,有pdf、doc、Excel、MOV、mp3等格式。Web检索系统以一定的策略在Internet上搜集和发现信息,对信息进行理解、提取、组织和处理,为用户提供检索服务,从而发挥信息导航的目的。搜索引擎通常被称为Web搜索引擎。

业界对搜索引擎的分类有很多标准,标准不同,分类体系也不同。一般来说,搜索引擎的分类标准主要有三种,即学术分类、需求分类和行业分类。

在学术分类中,根据不同的技术结构和服务提供模式,将搜索引擎分为三类:目录搜索引擎、全文搜索引擎和元搜索引擎。

在需求分类方面,根据搜索引擎满足用户信息需求的能力,将搜索引擎细分为一般搜索引擎和垂直搜索引擎。垂直搜索引擎包括网络搜索、新闻搜索、图像搜索、音乐搜索和视频搜索。

在产业分工方法中,考虑到搜索引擎市场的不同,将搜索引擎细分为两类:Internet搜索引擎和企业搜索引擎,而Internet搜索引擎则因服务领域的不同而不同。它进一步细分为一般搜索和垂直搜索。

(二)系统架构

作为Internet应用中最具技术含量的应用之一,优秀的搜索引擎需要复杂的结构和算法来支持海量数据的获取、存储和对用户查询的快速、准确的响应。

在架构层面,搜索引擎需要有能力访问、存储和处理数百万个庞大的网页,同时确保搜索结果的质量。如何获取、存储和计算如此庞大的数据?如何快速响应用户查询?如何使搜索结果满足用户的信息需求?这些都是搜索引擎面临的核心问题。

搜索引擎从互联网站点的网页中获取信息,这些信息是在本地抓取和保存的,因此互联网上相当大比例的内容是相同或几乎重复的。网页删除模块检测到这一点,并删除重复的内容。

在此之后,搜索引擎将解析页面,提取页面的主要内容,以及页面包含指向其他页面的链接。为了加快对用户查询的响应,需要通过倒排索引数据结构保存网页的内容,并保存页面之间的链接关系。我们之所以要保持链接关系,是因为它在网页排名中有着重要的价值,搜索引擎将通过链接分析来判断网页本身的相对重要性。这对于为用户提供高质量的搜索结果有很大的帮助。

由于页面太多,搜索引擎还需要保存原始页面信息和一些中间处理结果,仅用几台或一台机器来处理数据和信息显然是不够的。因此,商业搜索引擎公司开发了一套完整的云存储和计算平台,利用数万台普通计算机构建一个集群,支持海量信息的可靠存储和计算体系结构。优秀的云存储和计算平台是大型商业搜索引擎的核心竞争力。

当然,数据的采集、存储、处理都是搜索引擎的后台计算系统,其主要价值在于解决如何为用户提供准确、全面、实时、可靠的搜索引擎。如何实时响应用户查询并提供准确的结果,构成了一个搜索引擎前台计算系统。

在收到用户的查询后,搜索引擎将首先对查询项进行处理,推导出用户的真实查询意图,然后在缓存中搜索。如果能直接在缓存中找到满足用户需求的信息,结果可以直接返回给用户;如果缓存中没有用户需要的信息,则搜索引擎需要将系统检索到倒排索引中,以便实时查找结果,并对结果进行排序。在排名中,一方面考虑了查询的相关性和网页内容的相关性,另一方面考虑了网页内容的质量、可信度和重要性。综合以上因素,形成最终排名结果,返回给用户。

搜索引擎作为Internet用户访问Internet的虚拟门户,对引导和分流网络流量具有重要意义。使用各种手段将网络搜索排名提高到与其网页质量不相称的位置,严重影响了用户的搜索体验。如何自动发现作弊页面并对其进行惩罚,已成为当前搜索引擎的一个重要组成部分。

(三)关键技术

1.网页爬虫

互联网上有数千亿的网页存储在不同的服务器上、在世界各地的数据中心和机房里。对于搜索引擎来说,抓取互联网上的所有网页几乎是不可能的。从目前公布的数据来看,最大的搜索引擎只能获得网页总数的40%左右。一方面,由于爬行技术的瓶颈,它不能遍历所有的网页,从其他网页的链接中找不到很多网页;另一方面是存储和处理方面的问题。如果每个页面的平均大小为20 KB(包括图像),则100亿页的容量为100×2000 GB,即使可以存储,下载也可能有问题(如果在一台机器上每秒下载20 KB,则需要340台机器一年不停止地下载所有页面)。同时,由于数据量过大,会影响搜索的效率

网络爬虫抓取分布在不同服务器和数据中心中的网页,并在本地存储,形成网页镜像设备后建立索引,使网络爬虫能够快速响应用户的查询要求。网络爬虫起着重要的作用,它是搜索引擎系统的关键和基本组成部分。

一个通用的、简单的Web爬虫框架,其基本原理是:首先,从Internet上手工选择一部分网页,作为种子URL,存储在URL队列中;然后,爬虫调度程序从要获取的URL队列中读出URL,并解析DNS以将链接地址转换为网络服务器的IP地址;然后将所述IP地址和所述相对路径名称提交到所述相对网页下载装置。在接收到下载任务后,Web下载机通过IP地址和域名信息与远程服务器建立连接,发送请求并下载网页。一方面,将其存储在页面库中,为后续的页面分析和索引奠定基础;另一方面,从下载的网页中提取出URL,并将其放入捕获的URL队列中,以避免重复爬行。对于新下载的网页,提取其中包含的所有输出链URL。如果捕获的URL队列中没有出现链接,则将其放在要获取的URL队列的末尾,然后抓取它。在处理URL队列中的所有页面之前,此循环不会完成完整抓取。

网络爬虫通过套接字连接到远程服务器后,通过HTTP进行通信。在接收到爬虫请求后,服务器按照HTTP头信息和HTTP正文信息的顺序发送内容。抓取头信息后,对其进行解析,得到状态码、页面内容长度、转向信息、连接状态、网页内容编码、网页类型、网页字符集、传输编码等信息。根据返回代码,判断Web服务器是否转向请求,如果请求被转到,则应重新组装消息体以发送请求。然后,根据所述传输类型和所述网页主体的大小,将所述存储器空间应用于待接收,如果所接收到的大小超过所述预定大小,则放弃所述页;根据所述网页的类型,判断是否获取所述网页,并在满足所述获取条件的情况下,连续获取所述网页的主体信息。当爬虫获取网页的主体信息后,提取链接信息和相应的锚文本链接描述信息,形成网页链接结构库。当读取正文内容时,由于页面标题信息中给定的页面正文大小可能存在错误,所以页面正文信息的读取应该在循环正文中,直到无法读取新的字节。此外,服务器没有响应很长时间,需要设置超时机制,超时后放弃页面。如果接收到的数据超过预定的接收大小,则网页也被丢弃。

下载完所有网页后,整个网页可分为五种类型:下载的网页集、过期的网页集、等待下载的网页集、可知的网页集、未知的网页集。下载的网页和过期的网页属于本地网页,区别是本地网页的内容与当前的互联网网页内容不同,下载的网页集是指正在爬入URL队列的网页,这些网页很快就会被爬虫下载。可知的网页集是那些既不下载也不过期的网页,但总是可以通过链接关系找到。未知网页是那些无法被爬虫发现的网页,这部分页面在整个页面中所占的比例很大。

(1)重爬检测

如果爬虫不能检测到爬行的网页,物理中经常会出现重复爬行同一页的现象。重复收集网页的原因一方面是因为收集程序没有记录访问过的URL,另一方面是域名与IP之间的多重对应。

为了解决第一个原因造成的收集重复,搜索引擎爬虫通常定义两个表:

未访问的URL表和访问的URL表。请求的URL存储在URL中,URL表中已经访问了未访问的URL表,该表存储要访问的人的队列。爬虫将访问的URL和未访问的URL划分为MD5(Message Digest Algorithm 5)抽象,获得其唯一标识,并建立两个哈希集。对于新解析的网页URL,首先基于已访问URL的MD5集合来确定它是否已被爬行,或者如果没有进入未访问的URL库,还是干脆放弃。

记录未访问和访问的URL信息可以确保收集到的页面中的所有URL都不同。然而,域名和IP之间的对应是复杂的,即使网页URL不同,也会导致相同的物理网页。域名与IP之间有四种对应关系:一对一、一对多、多对一、多对多。一对一不会导致重复收集,后三种情况可能导致重复收集。虚拟主机和DNS轮转会导致一个IP对应多个域名;DNS旋转有时会导致多个IP对应于一个域名;当一个站点有多个域名时,多个IP对应于多个域名。为了解决IP和域名之间复杂的对应关系所带来的问题,寻找指向同一个物理位置URL的多个域和IP是一个累积过程。首先,积累一定数量的域名和IP(例如100万),然后检索并比较链接到与IP相对应的主页和主页的前几个页面,如果结果相同,则将它们分组。在未来,只能选择其中一个进行收集。应该优先选择域名,因为有些网站不直接使用IP访问。

(2)抓取调度

搜索引擎的爬虫必须在抓取网页之前维护要获取的页面的URL队列,然后根据队列中的URL顺序依次抓取页面。Web爬行策略是使用不同的方法来确定URL队列中要获取的URL的顺序。

无论是哪种爬虫,无论是哪种爬虫策略,目标都是一样的,即优先选择重要的网页进行爬行。网页的重要性可以根据不同方法的不同标准来选择,但大多是根据网页流行程度的定义来选择的。如人类链的数量,网页排名算法是一种比较常见的网页流行病评价指标。

目前,有效且有代表性的Web爬行策略包括深度优先遍历策略、宽度优先遍历策略、不完全Page Rank策略、OPIC策略和大站点优先级策略。

1)深度优先穿越策略有点像古代封建帝王的继承制度。长子继承,长子死,长孙继承。如果所有这些都消失了,考虑继承你的第二个儿子,以此类推。反映在树结构上的是深度遍历策略。由于互联网结构的复杂性,如果采用深度优先策略,就不能保证收集重要网页的优先级。

2)宽度优先遍历策略是一种非常简单但非常有效的Web爬行策略。虽然它是原创的,但效果比较好,它经常被用作爬虫网站爬行的基准策略。所谓的宽度优先遍历策略是“Nothing”策略,即从下载的网页中提取的URL链接直接附加到URL队列的末尾,不需要做任何额外的工作来评估页面的重要性。然而,宽度优先遍历策略实现了根据网页重要性对其进行排名的效果,因为它们倾向于通过大量链接下载更多的网页。

3)不完全Page Rank策略实际上与Page Rank策略相同,而Page Rank算法是全局策略。下载完所有网页后,使用它们进行计算是有意义的。但是,爬虫不可能在运行期间捕获所有网页,因此只能在不完整的网页集合中计算Page Rank。不完全Page Rank算法的基本思想是形成一个大的下载页面集和要下载的页面集,并在此基础上计算Page Rank,然后根据PR值从高到低对URL队列中的页面进行排序。形成一个优先抓取页面。但是,下载的页面和要下载的页面的数量不时会发生变化,而且每次爬行页面时都不可能更新Page Rank值。根据不完全Page Rank算法更新网页时,更新Page Rank值的机会是一个需要注意的问题。通常的解决方案是,只有当下载的页面数累积到预定值时,才更新网页集的Page Rank值。但是,在进行下一轮Page Rank计算之前,从一些下载页面中提取的URL可能比要爬行的页面列表中的当前URL具有更高的下载优先级,以及是否需要先下载这些URL。如何计算Page Rank值也是一个问题。一种可能的解决方案是,爬虫系统向已提取但没有Page Rank值的网页分配一个临时Page Rank值,然后聚合链接到该页的所有页面的Page Rank值,以获取该页的Page Rank值。如果此值高于要爬行的当前页面列表中的某些Page Rank值,则应先下载该页。不完全Page Rank策略比较复杂,其效果不一定优于宽度优先策略。

4)OPIC策略优于不完全Page Rank策略,其思想与不完全PageRank策略非常相似,可以看作是Page Rank策略的一个改进版本。其基本流程是:首先,每个页面都被给予相同的现金,而其他页面下载的现金也会被平等分配给自己的网页链外,而自己的现金为零。其次,对于要在URL队列中获取的页面,按其现有的现金优先级进行排序。与不完全PR策略相比,OPIC策略不需要迭代计算,且速度快,适用于实时计算。实验表明,OPIC策略是衡量网页重要性的良好手段,其效果略优于宽度优先遍历策略。

5)“大站优先”策略是最容易理解的策略,它从网站的角度来衡量网页的重要性。对于在URL队列中被抓取的页面,根据网站的分类,要下载的页面数量最多的网站有权优先下载。对于大型网站来说,这基本上是一个优先事项,因为它们包含的页面比小得多,而且它们的页面质量相对较高。实验表明,大站优先级策略比宽度优先遍历策略能取得更好的效果。(www.xing528.com)

在网络爬虫的多种调度策略中,最优的是OPIC策略,其次是大站优先策略、宽度优先遍历策略和不完全Page Rank策略,最差的是深度优先遍历策略。

(3)更新抓取

Internet上的网页经常更新,任何时候都会出现新的页面或内容更改的页面。爬虫不只是抓取本地页面来完成这项工作,它还需要确保本地下载的页面和Internet页面的一致性,这需要保持本地内容与Internet内容的同步。页面更新策略是影响内容同步的重要因素。它应该寻找一个适当的机会重新掌握下载的网页,以保持本地图像和互联网页面之间尽可能同步。常用的网络更新策略包括统一访问策略、历史参考策略、用户体验策略和聚类抽样策略。

1)统一的访问策略没有区分网站和网页,而是在一定的时间内对所有访问过的页面进行重述。这种方法简单且易于实现,对所有网页一视同仁,但在整个网络上重新浏览的效率较低。

2)历史参考策略的出发点是非常直接的,即过去经常更新的网页将来也可能经常更新。因此,要预测网页未来更新的时间,只需参考过去的更新即可。泊松分布可以用来模拟网页的变化,预测网页的下一次更新时间。为了节省资源和提高效率,一些实现方法也对网页进行了划分,重点对主题内容进行建模和检测,而忽略了广告栏或导航栏等不太重要的领域。

3)用户体验策略是利用用户通常只浏览搜索引擎返回的前三页内容这一事实来更新网页。有时,即使本地图像中的某些页面在内容上发生了显著变化,搜索引擎也不会更新页面。因此,判断一个网页是否需要更新取决于网页内容的变化对搜索排名的影响。页面的影响越大,更新的速度就越快。用户体验策略保存了网页的多个历史版本,并根据以往页面变化对搜索排名的影响得到了一个平均值,进而确定了页面更新的优先级。

历史参考策略和用户体验策略都强烈依赖于网页的历史更新,这无疑会增加搜索系统的存储负担,而对于第一次无法获得的页面,则无法估计其更新时间。

4)聚类抽样策略认为网页的某些属性决定了它们的更新周期,类似于网页的属性,其更新周期是相似的。因此,可以根据上述更新属性对页面进行分类,从而将同一类别中的页面设置为相同的更新频率。为了计算同一类别网页的更新周期,只需对类别中的页面进行采样,并将抽样页面的更新周期作为该类别所有页面的更新周期。这样,我们就可以解决依赖历史页面和新网页冷启动的问题。有静态和动态特性用于更新网页聚类。静态功能包括网页的大小和内容、图像的数量、链接的深度、页面排名值等。动态特征包括这些静态特征的变化,如图像数量的变化、链内外链的变化等。然而,很难对数亿个网页进行聚类。有人提出了一些简化办法,例如将属于同一网站的所有网页作为一个分类,将网站典型网页的更新周期作为网站的更新周期。虽然效果不一定很好,但由于节省了聚类过程,计算效率仍然令人满意。

(4)净结算

隐藏网页是指当前搜索引擎根据网页链接关系分析无法抓取的互联网网页。一些典型的垂直网页属于暗网,它们通常很少与外部网站接触,它们的内容以数据库的形式存储,只有用户在网站组合查询界面中输入关键词后,才能得到数据。常规爬虫不能爬行和索引这些网站的内容。

为了捕捉黑暗网络的网页内容,我们需要开发不同于普通爬虫机制的不同系统,这种机制有时被称为黑暗网络爬虫。黑暗网络爬虫必须具备从数据库中挖掘出黑暗网页数据的能力,这主要解决了爬虫信息覆盖的问题。目前,大型搜索引擎服务提供商把暗网挖掘作为一个重要的研究方向,因为它直接关系到搜索引擎所提供结果的全面性。

为了挖掘数据库的内容,黑暗网络爬虫需要模拟人的行为,填写相关内容并提交表单。黑暗网页爬虫的技术挑战来自:①需要仔细选择查询组合,一方面要减少访问网站服务器的压力,另一方面需要尽可能覆盖垂直网站的所有页面;②需要在访问网站提供的查询文本框中填写适当的查询内容。

垂直网站往往为用户提供多个查询输入框,不同的输入框代表了搜索对象的某一方面属性,通过这些属性的组合可以有效地缩小搜索范围。因此,一个简单的方法是将每个输入框的所有查询值组合成一个查询,从而捕获所有垂直网站的数据。但这是不太可能的,也是不必要的,因为许多组合实际上是无效的,它给被访问的网站带来了很大的交通压力。

Google提出了一套叫作信息查询模板的技术。所谓查询模板就是将查询提交给搜索引擎,只有一部分属性赋值,其他属性不赋值,这些属性构成查询模板。如果只分配模板中的一个属性,则查询模板称为一维模板,将两个属性分配给二维模板,以此类推。信息查询模板具体指的是一个固定的一维度模板。如果将一维度属性分配给不同的查询组合,则搜索引擎返回的内容将有很大差异。为了加快丰富信息查询模板的搜索速度,减少查询提交的次数,Google还提出了一种站点查询信息模板的技术方案。其基本思想是:首先,从一维查询模板开始.如果查询模板是丰富的信息模板,则将一维模板扩展到二维模板,然后依次检查相应的二维模板,以此类推。递增地添加维度,直到无法找到富信息查询模板。这样就可以找到最丰富的信息查询模板。Google的评价结果表明,与完全组合方法相比,该方法能有效地提高系统的效率。

上面的富信息查询模板没有提到如何确定查询输入值。由于爬虫在网站正式投入运行之前对其内容一无所知,它需要手动提供一些种子搜索关键字表,然后在此基础上向垂直搜索引擎提交查询并下载返回的结果页。自动挖掘出相关关键字,形成信息查询列表,然后依次向搜索引擎提交新的查询词。这种情况会重复,直到无法下载新的内容位置。通过手动启发式递归迭代的结合,数据库中的所有记录都可以尽可能地被覆盖。

2.文献理解

爬虫从Internet下载相关网页文档后,形成原来的网页库和网页链接结构库,分析子系统对原始网页库进行编码类型和类型转换,形成标准化的标准网页。通过网页的分析和净化模块,提取网页的URL标识、标题、描述、关键词和文本等重要信息,对网页内容进行压缩,删除网页,进一步优化网页存储空间。然后根据不同的关键词提取相应的网页摘要,最终形成结构化文档对象,包括文档ID、标题、URL、时间、关键词、摘要等内容,并存储在相关的文件系统中。此外,分析子系统还根据爬虫收集的网页链接结构数据库计算每个网页的链接重要性,并将其作为文档的属性存储在网页对象库中。为了方便地生成搜索结果页面,需要能够根据文档ID直接定位文档的结构化信息。因此,我们还需要建立一套结构化文档库的索引机制,以获得网页索引库。这允许简单地使用文档ID快速提取检索文档结果页,从而从缓存或本地文件中快速提取相关信息。

3.文档索引

倒排索引是搜索引擎索引的核心,它由词库和倒排表组成。单词字典用于维护文档集合中出现的所有单词的信息,记录倒排文件中单词倒排列表的偏移信息。

响应用户的搜索请求,通过在单词字典中查找单词,可以得到相应的单词倒排列表,并以此作为后续排序的基础。

对于一个索引数亿页的搜索引擎来说,出现的字数可能是几十万甚至数百万,如何在如此大规模的词汇词典中快速定位和获取信息,将直接影响搜索引擎的响应速度。常用的构造单词词典的数据结构包括哈希加链表结构和树形词典结构。

所谓的哈希列表结构由两个部分组成:哈希列表和碰撞列表。主哈希表存储指向存储具有相同哈希值的字典项的冲突列表的地址。

词典是在建立索引的同时进行的。例如,在解析新文档时,对文档中出现的每个单词执行以下操作:首先,使用哈希函数获取其哈希值,并根据哈希值所在的哈希表条目读取存储的指针;然后,找到相应的冲突列表,如果冲突列表中不存在单词,则将其和相关信息添加到列表中。所有文档中的所有单词都按照上述步骤进行处理,当文档集被解析时,建立相应的字典结构。

响应所述查询,对应的哈希表项与相应的哈希表项相匹配,并提取冲突链接列表进行比较,找到对应于所述查询词的倒排列表的存储位置,并获得与所述单词对应的倒排列表。并对相似度进行了计算,得到了最终的检索结果。

4.用户理解

搜索引擎和用户之间的交互非常简单。首先,用户在搜索框中输入查询词;然后,搜索引擎为用户返回相关文档列表。这一过程似乎很简单,但其背后的原则却非常复杂。由于用户输入的每个查询词都隐含着其深层的查询意图,而这些查询意图或由于用户表达水平有限而无法准确描述,或者由于某些需求难以用一两个单词或句子表达,因此系统需要结合用户上下文深入挖掘真实信息。用户查询意图的识别与挖掘是当前搜索引擎研究的一个重要方向。只有当我们知道用户到底想要什么时,才有可能为用户提供准确的答案和满意的服务。

每个搜索词都暗示着用户潜在的搜索意图和需求。如果搜索引擎能够根据查询条件自动分析潜在的搜索意图,然后针对不同的搜索意图采用不同的检索方法,最后,根据用户的意图满意度,将最符合用户意图的搜索结果排在第一位,这无疑将大大改善用户的搜索体验。

根据行业的研究成果,搜索用户的目的可分为三类:导航搜索、信息搜索和事务性搜索。

导航搜索通常表示用户的搜索请求以特定的站点地址为目标,如中兴通讯的官方网站、北京大学的官方网址等。

信息检索的目的是获取“宫保鸡的实践”“谁是美国总统”“五三北京天气”等方面或领域的信息。用户查询这类信息,主要是为了学习一些新知识。

事务性搜索请求的目标是完成特定的任务,如“下载手机软件”“淘宝购物”等。

用户搜索意向具体划分为以下几类。

(1)导航类,其中用户知道登录哪个站点,但不知道详细的URL或不希望输入较长的URL,因此可以通过搜索引擎进行搜索。

(2)信息类别,可细分为以下几个子类型:①直接类型,用户想了解某一特定主题的具体信息,如“中国建设银行南京分行2012年首期住房贷款利率是多少”;②间接类型,用户希望了解某一主题的任何方面的信息,如“2012年住房银行贷款情况”等:③用户希望得到一些建议或指导,如“如何处理2012年银行贷款购房手续”;④定位导向,用户想知道在现实生活中哪里可以找到某些产品或服务,如“购买手机卡”;⑤列表类型,用户希望找到一批能满足自己需求的信息,如“南京南站附近餐厅”。

(3)资源类,即用户希望能够从网络中获取一些资源,然后解决现实生活中的问题,进一步细分为:①软件类型,用户希望找到一些能更好地使用计算机的产品或服务,如“下载机器安装软件”;②娱乐类型,用户希望获得的娱乐信息,如“下载泰坦尼克号”;③交互性,用户想直接使用某些服务或网站提供的结果,如“南京天气”;④以资源为基础,用户想获取一定的资源,这些资源不必在计算机上使用,如“优惠券”。

当然,上面的分类是通过手工安排得到的,在实现时可以考虑将机器添加到工作中的方法,即第一步是使用一批语料库进行人工分类器的训练。然后通过构造分类器实现用户查询的自动分类。

大型商业搜索引擎(如谷歌、百度等)每天有数千万甚至数亿用户提交查询来完成搜索。通过对这些用户检索行为的统计分析,可以获得大量有用的信息,大大提高了搜索引擎搜索结果的准确性,提高了检索质量。基于上述思想,Directhit技术是提高检索排名质量的一种方法。它的主要功能是跟踪用户的后续行为来搜索结果:哪些网站已被用户选中浏览?用户在网站上花费了多少时间?通过这些数据的统计,搜索引擎可以提高用户经常选择的站点的权重,并花费大量的时间浏览,并减少那些用户不太关心的站点的权重。对于新添加的网页,系统会给它们一个默认的权重,然后它们的重要性取决于用户的行为。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈