短文本检索应用非常重视对时域信息的利用。在相关研究中,时域信息被融入查询扩展方法,以增强近年来频繁被用于描述与给定原始查询相关的概念的词语的重要程度。以往很多研究已经证明,时域信息可以被融入信息检索研究,而且时域信息在很多信息检索应用中体现出很大价值和应用必要性[191,256−257]。用户使用传统搜索引擎的信息需求往往是搜索经过长期固化的知识性信息(例如“牛顿第二定律的具体描述”等)。与用户在传统搜索的信息需求显著不同,微博用户通常希望通过微博检索来跟踪爆炸性新闻或者关于某个事件(或者人物)的当前活动(或者信息)等,例如跟踪苹果公司最新发布的手机产品的动态等。因此,微博检索对时间信息是敏感的,比较注重即时性(Recency)[191,258];从用户“为何”以及“如何”进行微博信息检索角度出发,用户使用微博检索功能来获取时间相关的信息,如突发新闻、实时动态、流行趋势。
短文本检索研究中,对时域信息进行建模的研究思路一般分为两类。第一类重视即时性,认为“最新即最好”,这成为目前做推文检索工作的主要思路,这种研究思路基本不考虑峰值和“多峰”等情况。第二类重视时域变化(Temporal Variation),比第一类的建模过程更加复杂,很多时域信息检索工作利用这个属性。但是,相关研究的重点往往不是做短文本信息检索,而偏重于传统信息检索。这些工作的主要思想是:构建查询相关的事件的时间线(Temporal Profile),由于时间线中不同时间间隔(Temporal Interval)有不同权重,从而据此给落在不同时间间隔上的文档不同权重,进而实现对文档的排序。这类工作能够考虑峰值并对峰值进行有效建模。从应用角度出发,微博的特点之一便是往往在某个突发事件发生时,人们在微博大量发布内容,这使得微博成为探究“某时某事”的重要线索。很显然,如果能够判断出某特定主题被热议的时间段,就能很容易地识别出该主题相关的文档和词语。
Efron等[259]提出了一个基于融合词语反馈和时域反馈的伪相关反馈框架,提出推文扩展策略,该研究发现使用基于时域信息的查询扩展能够有效提升微博检索结果的相关性。
Liang等[258]提出了一种实时排序模型(Real Time Ranking Model),使用一个两阶段伪相关反馈查询扩展架构来估计生成新的查询语言模型,并使用推文中超链接来扩展推文的内容。Miyanishi等[231]提出了一种以手工选择推文为辅助的反馈方案,基于给定查询和排序靠前的推文的时间剖面(Temporal Profile)相似性,使用一个两阶段伪相关反馈策略来提高检索性能。但是,这个方法受限于需要人工介入的设定,并且推文的内容冗余性(Redundancy)经常导致检索结果受影响,因为推文通常包含大量没有意义的词语。
Efron等[260]依托语言模型框架,提出了一种利用时间特性的检索方法,在讲究实时检索需求的应用环境下展现出了良好的效能。该模型从初始检索结果中选择排序靠前的文档,从中提取时域信息来估计查询似然的比率参数,并使用伪相关反馈策略来估计得到扩展的查询。Choi等[261]融合来自伪相关文档中的时域信息到一个相关性模型(Relevance Model),以增强查询扩展,该模型基于用户行为(如转发行为)选择一个时间区间来抽取相关推文,这些相关推文被用于扩展原始查询。Miyanishi等[231]假设相似的时域模型共享相似的时域特征,据此提出了一个查询−推文相关的时域相关性模型(Temporal Relevance Model)。Albakour等[262]引入一个时域衰减因子(Decay Factor),以平衡对给定查询所对应主题的短期(Short-Term)检索兴趣和长期(Long-Term)检索兴趣。Han等[263]基于时间剖面估计查询模型、文档模型和排序函数等,提出了一个基于时域信息的微博检索系统。针对微博检索任务面临的词表不匹配问题和相关推文时域分布不均的问题,Wang等[225]基于词语扩展和时域扩展,提出了一个反馈语言模型和查询扩展模型,以提升微博检索性能。
Lin等[191]将一个与文档即时性相关的先验分布引入语言模型框架,用于检索。该模型属于查询独立(Query-Independent)的时间语言模型,假设在短文本检索应用环境中新文档比旧文档拥有更高概率,考虑到新近性(Recency),该模型引入基于时间的指数先验分布用于替换原公式中的P(D),即
式中,tQ——查询被提出的时间;
tD——文档D的时间戳;
r——指数分布参数, r的选择可以服从如下约束形式:h=r×ln 2[264]。其中,h是文档的半衰期(经过时间h后,文档的生命值/重要性减少为其创建时的一半),这种建模方式符合具有实时性的文档的特性。
综上,通过重新定义文档先验概率,将新近性引入相关性模型,得到基于新近性的相关性模型(Recency-based Relevance Model):
该模型虽然能够处理最新的查询,但无法适用于任何时域变化(Temporal Variation)。而在短文本检索应用(如微博等)中,主题的时域动态变化是不同的,所以基于新近性的方法不能捕获时域变化比较特殊(例如,峰值距离提交查询的时间比较远或者多峰情况等)的主题相关的词语。此外,该模型的文档先验P(D)仅与文档D的创建时间tD有关,并不考虑是否和查询Q相关。Efron等[265]对此进行了改进,将文档先验P(D)的建模过程与特定查询Q相关联才合理,并提出了查询相关(Query-Dependent)的时间语言模型:从查询Q初始检索得到文档集合Δ={D1,D2,…,Dk},对应的文档创建时间为T={t1,t2,…,tk},用rQ代替式(9−25)中的r:
式中,——文档集合Δ中文档创建时间的平均值。
指数分布衰减参数rQ仅取决于初始检索返回的文档数目k。在此基础上,Liang等[258]提出了一个时域信息重排序(Re-Ranking)模块,用于评估文档的时间特征,进而扩展原始查询。该模型主要包括两部分:首先,使用推文所包含的超链接对推文进行扩展;然后,使用时域特征对文档进行重排序。
Li等[266]假设任何主题都与特定时间有关,而且与这些主题相关的词语在这段时间频繁适用。因此,识别这些与主题相关的时间,并且将时域特性加入语言模型框架:
式中,P(w|t,Q)——时间t上针对查询Q的词语分布。(www.xing528.com)
由Choi等[261]提出的面向微博应用环境的时域模型(Temporal Model)定义:
式中,Rt——在时间t发布的前M篇文档。
如果使用时间t时的文档,并且不将P(D)置为统一的,则在这种情况下式(9−29)与基于新近性的相关性模型式(9−26)相同,所以它们的模型可以考虑时间t的词语概率信息。因此,式(9−29)可以被解释为:通过时域模型P(t|Q)对P(w|t,Q)的加权求和。
针对给定查询Q的时域模型P(t|Q)被定义为
式中,P(t|D)为指示函数,表示文档D的时间信息。文档D的时间戳恰好为时间t时,P(t|D)=1;否则,P(t|D)=0。P(Q|D)表示对于查询Q的文档D的查询似然(Query Likelihood)。Ω表示归一化参数(Normalization Factor):。
这种建模方式与Jones等[267]定义的时间线(Temporal Profile)概念相似:通过初始检索得到前k个文档作为伪相关文档集合R,然后利用R中文档的时间属性来描述查询Q的时间属性,并用文档的相关性得分P(Q|D)作为权重加权。
此外,引入背景时间概率模型P(t|Δ),对P(t|D)进行平滑,旨在防止小样本文档集的不规则分布所带来的噪声和防止出现零概率:
式中,Δ——待检索文档的集合;
——该文档集合中的文档数目。
引入参数λ来控制两个模型P(t|Q)和P(t|Δ)的比例,最终得到估计查询时间属性P′(t|D):
式中,λ可以取值0.9[267]。
这个模型能够使用文档的时间戳和检索得到的文档的检索得分(Search Score)来度量主题相关的时间(即假设先验概率P(D)统一的查询似然)。这个相似性模型能够通过这个时间属性对词语分布赋予权重,所以能够捕获任何主题的时域变化。
但是,上述伪相关反馈算法都存在一个假设:初始检索的结果的文档是相关文档的概率很大,所以初始检索篇排序靠前的文档包括了用于进行查询扩展的高质量词语。但是,如果初始检索将无关文档排在比较靠前的位置,那么这个假设就不成立而且会导致伪相关反馈算法失败[268]。此外,研究显示,伪相关反馈算法所推荐的用于查询扩展的词语中,既有有用的,也存在没用的甚至有害的[245],而且当伪相关反馈算法对某些主题的性能很好时,对其他主题的性能可能会比较差。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。