1.核心技术
垂直搜索引擎依靠网页爬虫技术,抓取某一个特定领域(比如一个电脑产品)中的所有相关网页。在获得这些页面后,系统要对这些网页中所包含的对象信息类型进行分类,也就是说,它要分辨某个网页究竟是一篇论文、一个博客页面,还是一个商品信息页面。
在完成了这项工作后,系统就可以分门别类地将内容集成到对象信息仓库中。而这项工作需要事前进行大量的训练和模型组建。比如,在一个商品页面的训练中,要告诉系统在什么情况下是商品名称、商品图片以及价格;通过此类学习之后,系统就可以自动找到它所要的关键内容。这都取决于研究员们在这一过程中巧妙地结合了视觉分析技术,设计一些算法让计算机能够像人类一样看到一个页面的“兴趣中心”,并智能地做出判断。
在进行了抓取、分类、抽取之后,垂直搜索引擎就可以利用这些结构化的对象信息,来应对用户的提问,并进行各种智能分析和挖掘工作。
这种核心技术与通用搜索引擎技术有很大区别,可以说是具有革命性的。用户可以利用它进行各种垂直类的深度搜索。比如,要保证结构化信息的高质量、全面性、准确度。并且,由于这一搜索引擎的数据库,要存储互联网上以及各地离线数据库中的相关对象信息,对存储和运行规模的可伸缩性也提出了挑战。这一技术必须拥有一个能够存储数以十万计的“超级数据库”,并且保证其算法能够足够快速地进行检索。
在给用户带来便利的同时,这种核心技术带来了一系列围绕技术规则改变而衍生的商业模式潜在变化。比如,在基于对象的搜索引擎中,传统的网页排名方法(Page Rank)已不适用。微软亚洲研究院的研究员们提出了流行度排级(Pop Rank)。
这项所搜即所得的技术具有很强的通用性,除了产品搜索、学术搜索外,还可以应用到黄页、博客、人物、工作职位、饭馆、火车票搜索等多种垂直搜索领域,而其与电子商务的结合、新广告形式的衍生,将是一个崭新的话题。
2.四大关键技术
由于垂直搜索引擎服务具有其自身的特性,因此其技术要求特点上与通用搜索引擎有很多不同之处,主要有四大关键技术。
(1)聚焦、实时和可管理的网页采集技术
一般互联网搜索面向全网信息,采集的范围广、数量大,但往往由于更新周期的要求,采集的深度或层级比较浅,采集动态网页优先级比较低,因而被称为水平搜索。而垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中,但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加聚焦、纵深和可管控的需求,并且网页信息更新周期也更短,获取信息更及时。
(2)从非结构化内容到结构化数据的网页解析技术
水平搜索引擎仅能对网页的标题和正文进行解析和提取,但不提供其时间、来源、作者及其他元数据的解析和提取。由于垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页中特定内容的提取。比如:在论坛搜索、生活服务、订票服务、求职服务、风险信用、竞争情报、行业供需、产品比较等特定垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。(www.xing528.com)
(3)精、准、全的全文索引和联合检索技术
水平搜索引擎并不能提供精确和完整的检索结果,只是给出预估的数量和排在前面部分的结果信息(TOPN),但响应速度是水平搜索引擎所追求的最重要因素;在文本索引方面,它也仅对部分网页中特定位置的文本而不是精确的网页正文全文进行索引,因而其最终检索结果是不完全的。
垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式,比如按内容相关度排序(与水平检索的Page Rank不同)或按时间、来源排序。另外,一些垂直搜索引擎还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。
(4)高度智能化的文本挖掘技术
垂直搜索与水平搜索的最大区别是它对网页信息进行了结构化信息抽取加工,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,使得垂直搜索能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时,面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动排重、文本挖掘等。这部分是垂直搜索乃至信息处理的前沿技术,虽然尚不够成熟,但有很大的发展潜力和空间,并且目前在一些海量信息处理的场合已经能够起到很好的应用效果。
3.技术上的突破与创新
(1)实时性。垂直搜索引擎需要获取的信息来自于某一特定领域,这比起通用搜索引擎漫无边际的信息抓取,有一个非常大的优势,那就是信息的实时性。由于互联网上的信息量非常巨大,通用搜索引擎的数据更新周期短则十几天,长则几个月,而垂直搜索引擎的数据更新完全可以以秒为单位。中国铁路客户服务中心(www.12306.cn)的火车票搜索是就典型的实时性垂直搜索。
(2)数据挖掘分析、BI、报表。行业的历史发展、最新动向、趋势都是行业从业人员非常关注的话题。垂直搜索引擎集中了行业海量的信息和数据,基于这些信息和数据的商务智能分析,将为行业创造非常有价值的信息增值服务。
目前,各个垂直搜索引擎开始加强数据分析功能,分析的结果尚未向公众免费开放,毕竟这也是一个非常好的盈利点。
(3)个性化、社会化。查询服务只是垂直搜索引擎的一部分,垂直搜索引擎在用户的个性化发展方向上非常重要。垂直搜索引擎不能只提供一个窗口,它应该是一个用户高度参与交互的社会化平台。这不光是用户黏度、忠诚度的问题,更为重要的是,垂直搜索引擎需要能够获取并且分析用户的偏好信息,从而提供更加完善而且准确的数据服务。
(4)智能化语义网。语义网(SemanticWeb)将有可能成为下一代互联网,这样网络上的数据和信息将被计算机程序所理解。这将为垂直搜索引擎提供一个巨大的机会,爬虫程序如果能理解网络上的数据,将对信息的收集和整理更加准确和专业,搜索服务的查全率和查准率将更高。
(5)多元化查询。目前的搜索引擎,都只局限于关键字搜索,其中主要的原因是,对用户的查询需求无法建模,无法模式化。而关键字搜索带来的问题是,搜索结果过多,并且不准确。互联网信息量越大,这种情况越严重。多元化查询服务的提供,将会成为对竞争对手的杀手锏。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。