首页 理论教育 短文本表示建模:问题与思考

短文本表示建模:问题与思考

时间:2023-11-18 理论教育 版权反馈
【摘要】:微博检索需要克服严重的“词表不匹配”问题,即如何检索得到那些并不显式包含查询词但是与查询却语义相关的推文。基于伪相关反馈框架的查询扩展算法[235,258,280]被广泛应用于微博检索任务,以缓解词表不匹配问题。综上,现有微博检索相关研究成果存在的问题和不足,概述如下。目前的研究工作正在将词汇语义知识库引入微博检索研究,探索借力于词汇语义知识库来实现微博检索研究中的深层推理。

短文本表示建模:问题与思考

微博数据资源智能处理极具困难性和挑战性,但也为微博检索(Microblog Retrieval)这类典型的短文本检索应用提供了很好的机遇和研究空间。微博检索需要克服严重的“词表不匹配”(Vocabulary Mismatch)问题,即如何检索得到那些并不显式包含(全部或者部分)查询词但是与查询却语义相关的推文。与长文本不同,两个语义相似的短文本可以不包含相同词语[11]。例如,推文“Win an Amazon Kindle 3G Wireless from @FreeLunched Quick and easy registration athttp://bit.ly/9fBuw4”和推文“Conker,Live and Reloaded XBox game #xbox”在字面上没有任何重合词语,但是所表达的语义内涵一致;又如,短文本“upcoming apple products”和短文本“new iphone and ipad”,虽字面不重合但表达相似意思。词表不匹配问题虽然也是传统网页检索所面临的重要挑战,但在传统网页检索中,文档的篇幅相对较长,且文档作者通常习惯于在文档中重复使用某些关键词来论述主旨思想,所以传统检索模型(如查询似然模型等)通常十分依赖词频(Term Frequency,TF)等统计信息来缓解词表不匹配问题;然而,一条微博所包含的词语要少得多(通常不超过140个字符),大部分词语(特别是关键词)在一条微博中只出现一次,导致传统统计方法性能大打折扣,所以相较于传统网页检索,微博检索面临更为严重的词表不匹配问题。基于伪相关反馈框架的查询扩展(Query Expansion,QE)算法[235,258,280]被广泛应用于微博检索任务,以缓解词表不匹配问题。但是此类算法严重依赖一个假设:初始检索得到的排序靠前的文档是与原始查询内容相关的,而且包含可用于扩展原始查询的有价值的词语。但在实际情况中,这个假设在微博环境中并不总是成立[231,298]。可以考虑以下这种情况:如果查询本身就包含比较难以理解的专有名词,则上述假设很难成立。此外,即使初始检索得到的排序靠前的文档与当前“主题”(即用户所提交的查询)高度相关,但受微博文本的用语随意性和书写不正式性影响,这些文档依然很有可能包含大量与主题无关的词语[231],在这种情况下,上述假设很难成立。此外,对于短文本,无论句法分析还是主题建模都难奏效,因为短文本输入中缺乏足够的信号用于推理统计分析[5]

综上,现有微博检索相关研究成果存在的问题和不足,概述如下。

(1)伪相关文档质量过低。在微博检索任务中所能利用的信息仅是来自推文中非常稀疏的相关性信号。目前微博检索研究常用的策略是伪相关反馈技术,依赖初始检索产生的初始检索结果的前M个文档对原始查询进行扩展。但是这前

M个文档通常包含大量噪声(在微博环境下,噪声会尤为明显),所以其中与原始查询相关的推文和词语会比较少,即相关语义信息会比较少[234,246,249−250,258−259]。为了进一步提高查询扩展的性能,可从以下两方面操作:一方面,引入外部知识库资源,以增加可用于推理的相关性信号;另一方面,尝试缓解伪相关文档中的噪声,以更高质量地利用这些伪相关文档。(www.xing528.com)

(2)对外部知识资源利用不足。由于短文本篇幅简短、语法结构不完善,可用于统计和推理的语义信息非常稀疏,因此无论句法分析还是主题模型都很难奏效[89,101,281,299−302]。所以需要探索如何从有限的输入中捕获更多、更高层级语义信息(如作为词汇知识代表的概念信息),这已在短文本理解和知识表示[29,70,231]等研究领域证明了有效性。目前的研究工作正在将词汇语义知识库引入微博检索研究,探索借力于词汇语义知识库来实现微博检索研究中的深层推理。

(3)语义信息难以充分融合。以往研究通常只针对查询中的词语(或实体)分别进行独立的语义建模,丢失了查询中不同词语(或实体)之间的语义关联联系和催化作用[29,227,285],因此无法有效生成针对给定查询整体的全局语义表达。虽然目前已有很多研究在尝试使用层次更高的语义信息来增强微博检索的性能[227,303−304],但是其中大多数算法未能对信号进行充分融合。

为了解决上述问题,微博检索任务所面临的严峻挑战可以归纳为两个方面:一方面,如何结合外部知识库,从有限的短文本输入中挖掘更多语义信息;另一方面,如何设计一种全新框架使这些语义信息充分融合,以实现对社交媒体短文本的消歧和理解。针对这两方面挑战,以提高微博检索的语义相关性为目的,当前研究所广泛认可的应对策略如下:首先,从篇幅有限的短文本中挖掘隐含其中的语义层级更深的语义信息(如概念语义信息、实体语义信息等),例如尝试将短文本概念化和短文本向量化的结果引入微博检索任务;其次,将获得的相关更高层级语义信息融合进一个能够使多元语义信号充分融合的伪相关反馈框架,以提高微博检索的语义相关性。还有部分工作在尝试从不同的角度探索将词语层面检索的相关性得分和概念层面检索的相关性得分相结合[305−306]。相关研究表明,用户还会在多次尝试之后,不断改写查询来观察检索出的结果,直至得到满意的微博检索结果[307]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈