在目前的信息检索(包括微博检索)研究领域,基于伪相关反馈(Pseudo-Relevance Feedback,PRF)策略[98,234−236]的查询扩展(Query Expansion,QE)研究一直占据着主导地位,被广泛用于提高检索性能,并在多种类型的信息检索任务中得到了有效验证。
查询扩展的目标在于,使用不同的而且与用户检索意图一致的词语来扩展最初的、并不成功的查询,或者产生一个最有可能检索到更加显著相关文档的相关查询[237]。当用户提交的原始查询简短而且歧义性大、亟需主题相关词语辅助时,查询扩展机制将对改善检索性能起到显著作用,这也正符合微博检索所面临的困难情景。查询扩展的主要思想是在信息检索的过程中通过与用户交互来提高最终的检索效果,其基本流程概述如下:①用户提交原始查询,系统对查询主题进行解析和表达;②经过相应的信息检索模型或算法,系统返回初始检索后的文档排序集合(通常称为“伪相关文档”);③用户参与对初始检索得到的结果进行相关性判断,显式地将它们标注为相关或者不相关(即显式反馈信息),或者信息检索系统通过收集数据和自动分析、估计来预测用户对部分结果的满意度(即隐式反馈信息)等;④系统基于上述显式(或隐式)反馈信息,针对不同的检索模型(或算法)扩展原始查询,形成新的查询;⑤系统利用新查询进行重新检索,生成新的检索结果排序,并进行检索性能评价。
通常,查询扩展技术主要包括基于全局分析的查询扩展、基于显式相关反馈(Explicit Relevance Feedback)的查询扩展、基于隐式相关反馈(Implicit Relevance Feedback)的查询扩展、基于伪相关反馈的查询扩展等[52]。
(1)基于全局分析的查询扩展是一种早期较常采用的查询扩展技术,其基本思想是对文档全集中的词语(或短语)进行相关性分析(如共现分析等),计算每对词语(或短语)之间的相关度,构造叙词表,并从中选取与查询关键词关联程度最大的词语作为扩展词语,加入原始查询来实现查询扩展。全局分析方法主要包括基于词聚类的方法、基于潜语义索引的方法、基于相似词典的方法等。
(2)显式相关反馈技术要求信息检索系统为用户提供一个明确的接口,用于接收用户的反馈信息,用户按照自己的检索目的对系统给出的初始检索结果做出相关与否的标记,重复上述过程,直到系统提供令用户满意的检索结果为止。但在实际应用中,大多数用户希望简化操作、享受更短的检索响应时间,因此带有用户显式反馈功能的检索系统加重了用户负担、实用性较差,很难得到推广。(www.xing528.com)
(3)在隐式相关反馈方法中,用户不直接参与反馈,系统通过分析包括“审查”“保留”“引用”等在内的用户行为(User Behavior)来发现用户的兴趣和爱好[238]。例如,通过收集用户查询日志等信息来间接地分析用户的偏好,通过文档的局部或者全局点击率来分析文档的重要性等[239−242]。然后,系统结合用户的检索需求进行检索优化。
(4)伪相关反馈是目前查询扩展技术中最常用的一种方法。这种方法既不需要用户对初始检索结果进行人工评价,系统也不必捕捉用户的点击与浏览行为,而直接从初始检索结果本身入手获得反馈信息,通常将初始检索结果中排序靠前的前M个文档认定为“相关文档”,对前M个文档进行分析,以扩展用户的原始查询[54,243−246]。以往研究常将基于伪相关反馈的查询扩展称为局部查询扩展(Local Query Expansion)[247]。
经过查询扩展,扩展后得到的新查询可以提供更多有利于判断文档相关性的信息,减少在获取用户查询信息需求(Information Need)过程中不稳定因素对信息检索系统造成的负面影响,从而改善信息检索性能,提高系统感知用户检索需求的准确性[109,246,248]。从微博检索的实际应用需求出发,无须用户交互的伪相关反馈方法无疑是查询扩展技术应用于微博检索的首选,因此本书重点讨论基于伪相关反馈策略的查询扩展。
伪相关反馈策略的基本假设:通过初始检索得到的“伪相关文档”中的绝大部分高频词语对于扩展原始查询是有用的[234,246,249−250]。通常,伪相关反馈策略包括两个阶段:在第一个阶段,通过一个简练的初始检索(Initial Retrieval)来获得伪相关文档(Pseudo-Relevance Documents,PRD);在第二个阶段,基于所设计的查询扩展策略来扩展原始查询。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。