首页 理论教育 短文本表示与应用:问题与思考

短文本表示与应用:问题与思考

时间:2023-11-18 理论教育 版权反馈
【摘要】:综上,将现有短文本概念化表示研究存在的问题和不足概述如下。独立假设限制对多类型语义关联关系的充分利用。例如,依托Co-Ranking框架来全面解决上述问题。Co-Ranking策略能够充分利用隐含在异构网络中的丰富的附加信息,在众多应用和任务中得到了广泛应用。实质上,Co-Ranking策略背后的原理可以概述为:这种联合排序过程蕴含着不同类型实体之间相互增强和调整的关系。

短文本表示与应用:问题与思考

短文本概念化研究面临诸多挑战,主要体现在:长文本(如一篇文章等)包含丰富的文本内容信息,有助于词义和句法消歧,还有助于构建可靠的统计分析模型,但短文本缺乏充足和完整的句法结构及语义信息用于句法分析和主题建模。

综上,将现有短文本概念化表示研究存在的问题和不足概述如下。

(1)容易产生过度泛化的概念。传统朴素贝叶斯方法容易不加甄别地提升与给定短文本中所有词语都相关现的概念,而丢失只与部分重要词语匹配的概念。在极端情况下,只有那些泛化和模糊的概念(如概念TOPIC、概念THING等)才会被识别出来,因为这些概念几乎与给定短文本中所有词语都存在相关或者共现关系[10]。然而实际上,那些与给定短文本中部分核心词语匹配的概念,往往能更加具体且更好地描述给定短文本。换言之,挖掘当前短文本语境中的上下文关键词,有助于短文本概念化。

(2)独立假设限制对多类型语义关联关系的充分利用。现有短文本概念化算法假设给定短文本中的所有可观察到的词语都是条件独立的[5,8,17,72],而忽略了概念之间、词语之间的交互以及概念与词语之间的有益的相互反馈。然而,在实际应用中,这个假设并不总是成立的[10,77]

(3)难以降低一词多义现象对概念化结果的影响。以Song等[17]为代表的研究工作没有采用词语消歧和充分利用词语关系,难以从一词多义词语的众多候选概念中遴选出正确概念,这成为制约概念化准确率提升的关键因素。上下文语境信息通常可被用于实现消歧,而短文本篇幅较短、上下文信息较匮乏,以往很多短文本概念化研究对上下文信息的消歧能力利用不力[4,8,10]。(www.xing528.com)

(4)难以对给定短文本生成全局概念表达。现有很多方法只为给定短文本中的每个词语w(或词语类簇)分别生成相关概念,其目标函数是img,对词语w(或词语类簇)所能映射到的概念进行排序,最终生成top−N个概念,而不同词语(或词语类簇)的概念列表之间完全互斥、没有关联[5,11,16]。因此,这些算法无法为整个短文本生成能够表征该短文本全局(Global)语义的概念集合。

(5)句法结构分析在短文本上难以奏效。虽然Wang等[5]、Hua等[72]和Song等[10]尝试引入词语关系来增强语义表达,但是这些工作严重依赖于依存句法分析,而依存句法分析对句法结构不完备的短文本来说很难奏效。

综上,为了解决上述问题,当前短文本概念化表示研究领域研究正在尝试设计一个全新框架,以确保各种类型语义信息能够充分融合,着重协同考虑概念之间(以及词语之间)的交互以及概念与词语之间的交互。例如,依托Co-Ranking框架来全面解决上述问题。

此外,异构网络分析近年来开始引发学术界和产业界的广泛研究[115−116,134]。短文本概念化研究所使用的语义网络本质上也是一个异构网络(Heterogeneous Network),因为其包含不同类型的节点(概念和词语等)和不同类型的连边(概念之间的连边、词语之间的连边、概念与词语之间的连边等)。因此,异构网络分析的相关理论及算法在短文本概念化研究上存在一定的应用价值。对被网络所联结的个体进行排序,一直以来在社交媒体运维和商业营销推广领域有着重要且深入的应用,如搜索引擎、推荐系统、意见领袖(或影响力用户)挖掘等。很多著名的排序算法(如PageRank算法[22]、HITS算法[24]等)受限于解决同构网络(Homogeneous Network)中的上述问题,而对异构网络无能为力。然而,在现实世界应用中,我们需要综合考虑多种类型的个体和关系,如学术网络包括论文隶属关系、合著关系、引用关系等关系。为了解决这个问题,近年来对异构网络中不同类型的个体进行联合排序(Co-Ranking)的研究逐渐受到重视[115−117,122,135],被应用于学术网络影响力论文和影响力作者识别[122]、微博推荐[136]电商评价搭配抽取[137−139]、消费意图挖掘[140]等应用任务。Co-Ranking策略能够充分利用隐含在异构网络中的丰富的附加信息,在众多应用和任务中得到了广泛应用。实质上,Co-Ranking策略背后的原理可以概述为:这种联合排序过程蕴含着不同类型实体之间相互增强和调整的关系。因此,当前越来越多的研究将Co-Ranking策略引入短文本概念化研究,使多类语义信息(即词语和概念之间各种类型的关联关系)能够充分融合,以便为短文本产生更加可靠的概念化表达。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈