首页 理论教育 潜概念扩展模型在短文本检索中的应用

潜概念扩展模型在短文本检索中的应用

时间:2023-11-18 理论教育 版权反馈
【摘要】:基于潜概念扩展模型[270],文献[272]提出了一种应用于微博检索任务的算法变体,该算法采用一个时域相关性模型来对微博中概念的时域变化进行建模。在短文本检索过程中,真正起作用的是用户的信息需求。以往关于查询扩展的研究通常忽略对词语依存的建模,基于马尔可夫随机场的潜概念扩展研究解决了上述问题。

潜概念扩展模型在短文本检索中的应用

近年来,在信息检索领域的很多研究都认为给定查询中的词语互相之间是有关联的[269],很多工作意在挖掘给定查询中两个及两个以上词语之间准确的依存(Dependency)关系。Metzler等[270]的调研显示,相较于基线词袋(Bag-of-Words)模型,很多以往信息检索领域的词语依存建模方法无法体现鲁棒而显著的性能提升,只有极少数的模型(如依存语言模型(Dependence Language Models)和马尔可夫随机场(Markov Random Fields,MRF)模型[271]等)能够实现性能的显著提升。基于词语依存关系的微博检索工作的典型代表是基于马尔可夫随机场模型的潜概念扩展(Latent Concept Expansion,LCE)模型[272−274]。基于潜概念扩展(Latent Concept Expansion)模型[270]文献[272]提出了一种应用于微博检索任务的算法变体,该算法采用一个时域相关性模型来对微博中概念的时域变化进行建模。该算法中的“概念”是指从文本中挖掘出的词语组合。在不同数据集上,该模型能够相较于传统相关性模型(Relevance Model)[275]显著提升指标平均准确率(Mean Average Precision,MAP)的值,但是对指标P@5、P@10和P@20的值提高有限,该算法被认为是目前基于概念的最优基线算法。

在短文本检索过程中,真正起作用的是用户的信息需求(Information Need)。然而,在信息需求转化成查询的过程中,丢失了很多内容。因此,查询扩展对于检索是很有必要的。以往关于查询扩展的研究通常忽略对词语依存的建模,基于马尔可夫随机场的潜概念扩展研究(Latent Concept Expansion,LCE)解决了上述问题。近年来相关研究已经证明:马尔可夫随机场(Markov Random Field,MRF)模型性能优于基于BM25模型或者语言模型(Language Model)中的简单的词袋假设,因为马尔可夫随机场模型能够建模一元依存(Unigram Dependence)、二元依存(Bigram Dependence)。

马尔可夫随机场模型能够为联合分布(Joint Distribution)建模提供一个紧凑的而且鲁棒的方法。使用马尔可夫随机场模型对如下信息的联合分布进行建模:①一个查询Q,Q={q1,q2,…,qn};②一个文档D。本书假设:文档−查询对(用〈文档,查询〉表示)的潜在分布是一个相关性分布(Relevance Distribution),即从这个分布中采样,可以得到很多〈文档,查询〉,而且得到的文档和查询是相关的。此外,在短文本检索应用中,马尔可夫随机场模型由以下要素定义:①图G,其中的节点表示随机变量,边是关于分布的独立语义(Independence Semantics);②图G中团(Clique)上的一组非负势函数Ψ、参数Λ。

马尔可夫随机场模型满足马尔可夫随机场特性(Markov Property),即对于一个节点,在给定其邻居的观察值后,该节点与其所有非邻居节点均独立。所以给定图G以及一组势函数Ψ和参数Λ,查询Q和文档D的联合分布表示为

式中,Ω是归一化常数。img是一个实质特征函数(Feature Function),λi是fi(c)的权重

1.构建图G

给定一个查询Q,图G可以由多种方式构造。通常考虑以下三种变体:

(1)完全独立(Full Independence):给定一个文档,查询中的查询词(Query Term)之间互相独立,这种假设在很多检索模型中都存在。

(2)顺序依存(Sequential Dependence):相邻的查询词之间存在依存、互相影响,这种假设能够模拟二元语言模型(Bigram Language Model)。

(3)完全依存(Full Dependence):所有查询词之间均存在一定程度的相互依存,没有独立假设。

2.参数化

马尔可夫随机场模型通常基于极大团(Maximal Clique)来进行参数化,但是这种参数化方法对于短文本检索问题来说太粗糙。我们所需的参数化方法应能够更好地将特征函数与团相关联,使得特征数量和参数数量更加合理。因此,在此允许团能够基于“团集合”(Clique Set)来分享特征函数和参数,即同一个团集合中的所有团与相同的特征函数有关,并且共享一个参数。这种参数化方法的优点在于,能够使不同团集合的特征的参数紧密联系,有效降低参数数量,并且仍然能够在团级别提供一个微调策略。

对于短文本检索任务,本书提供3组(共7种)团集合。

第1组团集合:其中的团包含一个(或多个)查询词和文档节点,这种团上的特征能衡量团配置(Clique Configuration)中的词项(Term)能否有效描述文档。所包含的3种团集合:①TD,其中的团包括文档节点和1个查询词;②OD,其中的团包括文档节点和2个(或多个)在查询中顺序出现的查询词;③UD,其中的团包括文档节点和2个(或多个)在查询中任意顺序出现的查询词。其中,UD是OD的超集。通过在每个团集合中的团上尝试参数,我们就可以控制每种团集合所能得到的影响力,从而就不需要考虑“评估团集合中每个团的权重”。

第2组团集合:其中的团只包含查询词。所包含的3种团集合:①TQ,其中的团只包括1个查询词;②OQ,其中的团包括2个(或多个)在查询中顺序出现的查询词;③UQ:其中的团包括2个(或多个)在查询中任意顺序出现的查询词。这些团集合的定义方式与第1组类似,只是不包括文档节点。这些团上的特征函数可以捕获查询词之间的复杂度

第3组团集合:只包含文档节点,该节点上的特征可作为文档先验。这一组只包括1个团集合,即D,其只包含单一节点D。

在把所有团上的参数整合到一起并且使用指数形式的势函数之后,得到关于联合分布的简化形式如下:

为了便于书写,令(www.xing528.com)

img

3.特征选择

任何关于团配置的特征函数都可以应用于该基于马尔可夫随机场模型的短文本检索模型。对于特征的选择,很大程度上依赖于检索任务和评价标准,即针对不同应用而选择不同特征,因此基本上不存在简单的、通用的特征组合。通常可行的特征组合包括:① 查询词依赖特征,如词频、逆文档频率、命名实体、词语距离等;② 文档依赖特征,如文档长度、PageRank值、可读性、文档体裁等。

4.排序

在短文本检索任务中,给定一个查询Q,我们希望根据PG,Λ(Q,D)来降序排列短文本文档。在从lnPG,Λ(Q,D)中去掉文档独立表述(即FQ(Q)和−ln ΩΛ)之后,可以得到排序函数如下:

式(9−38)是一个对特征函数的简单的线性加权,可以高效计算。

5.参数估计

至此,模型已经完整定义,最后的步骤是估计模型参数。虽然马尔可夫随机场模型是一个产生式模型,但是马尔可夫随机场模型不适合使用传统的基于似然(Likelihood)的方法来训练。因此,通常训练模型来直接最大化评价指标。由于参数空间很小,因此通常使用简单的爬山法来解决。

6.潜概念扩展(Latent Concept Expansion)

用户在书写查询时,在心中有一组“概念”(Concept),但是只能在所书写的查询中表达出其中的某几个。通常,将在用户心中有但没有表达在查询中的概念称为潜概念(Latent Concept)。潜概念可以是如下形式:① 单一词语;② 多个词语;③ 前两者的组合。基于上述定义,下一步的目标是根据原始查询去挖掘这些潜概念。

在该模型的框架下,这个目标可以按照以下方式完成:在原始图G的基础上,加入想要生成的概念,由此将原始图G扩展成图H。在扩展图H的基础上,计算PH,Λ(E|Q):

式中,Δ——所有可能的文档的集合;

E——某个由一个(或多个)词组成的潜概念。

式(9−39)实际上无法计算,只能求近似:PH,Λ(Q,E,D)可理解为在与查询Q高度相关的文档D的峰值附近。因此,本书将PH,Λ(Q,E,D)近似计算为,查询Q的相关(或者伪相关)的一组文档的加和。这种近似转换后,公式如下:

式中,QΔ——查询Q的相关或者伪相关文档的集合。

所有团集合都使用扩展图H构建。通过观察可以发现,对ΔQ中每个文档的似然分布是以下几项的综合:原始查询对文档的打分,PG,Λ(D|Q )=FDQ(D,Q )+FD(D);潜概念E对文档的得分;潜概念E的文档独立得分。为了追求鲁棒性,本书对FQD(Q,D)和FQD(E,D)使用一组不同的参数。这样,本书就可以针对原始查询和扩展概念,有区别地对词语、有序窗口特征和无序窗口特征赋予权重。根据上述公式,选择似然最高的k个潜概念。使用这k个潜概念({E1,E2,…,Ek})对原始图G进行扩展,得到新图G′,再按照PG′,Λ(D|Q,E1,E2,…,Ek)对文档进行排序,完成最终查询扩展。

尽管潜概念扩展模型已经取得不错的检索效果提升,但其存在的重要问题:该算法所使用的“概念”来源于基于统计的语料库词语组合,而非专业知识库,这导致概念定义不规范;此外,该算法在将新概念中的词语加入用户所提出的原始查询时,仅基于词语统计,而忽略了被扩展概念的语义和句法信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈