概念化(Conceptualization)模型旨在借助知识库推出文本中每个词的概念分布,即将词按语境映射给一个以概念为维度的向量[9]。在这一任务中,每个词的候选概念可从知识库中明确获取。例如,通过知识库Probase,机器可获悉“apple”这个词有FRUIT、COMPANY等概念。当词语“apple”出现在语境“apple ipad”这个短文本中,通过概念化可分析得出“apple”有较高的概率属于概念COMPANY。给定文本当中的词语集合W={wi|i=1,2,…,nW},概念化模型尝试从知识库预先定义的概念中找到最能够描述给定词语集合的概念(即得分最高的概念),构成概念集合[10,17]。假设,知识库中有一组已预先定义的候选概念集合,用cj表示候选概念集合中的概念,而最终从这个候选概念集合中选择概念作为最终概念化结果。传统概念化模型采用条件概率的朴素贝叶斯假设,概念cj的得分由下式计算:
式中,n(wi,cj)——概念cj和词语wi在语料库中的共现频数;
n(cj)——概念cj在语料库中的频数;
P(cj)——概念cj的频数在候选概念集合中所有概念上的正则化。
通常,使用拉普拉斯平滑(Laplace Smoothing)技术[80]来过滤噪声并引入概念多样性。概念化模型的基本假设:给定每个概念cj,所有可观察到的词语wi∈W都是条件独立的。概念化模型使用上述概率来对概念进行排序,最终选择排序得分最高的概念来表示包含词语集合W的给定文本。该研究思路是最早的基于知识库Probase的概念化模型之一,后续很多研究从不同角度探索改进和提升了上述研究思路。(www.xing528.com)
(1)为了缓解概念泛化问题和一词多义等问题,可以利用聚类(Clustering)技术来扩展上述在简单的朴素贝叶斯方法。该算法首先将问题建模为一个二部图(Bipartite Graph),其中节点表示短文本中的词语和知识库中的概念,连边表示知识库定义的概念和词语之间的isA关系,连边的权重用条件概率P(wi|cj)表示;然后,挖掘能够最大化连边权重的稠密的k−互斥团(k−Disjoint Clique)[81],在同一个团中的词语被认为属于同一个类簇(即语义相近的词语被聚类到同一类簇);最后,在每个类簇上分别执行上述朴素贝叶斯算法,完成概念化。
(2)考虑到上下文语境中的词语相关性,在上述算法的基础上,尝试将词语之间的关联与P(cj|W)协同建模,有助于促进概念化过程中的消歧:具体而言,将词语关系融入一个生成式模型,并将其建模为一个马尔可夫随机场(Markov Random Field),最后将短文本概念化问题转化为马尔可夫随机场模型中的潜变量推理问题。
(3)为了从充满噪声且稀疏性明显的短文本中挖掘更多信号,可引入词语的动词修饰信息、词语的形容词修饰信息、词语的属性信息等,这在一定程度上能为理解词语提供有益线索;随后,基于随机游走的方法,在每轮迭代中都对候选概念重新打分,最终在算法收敛时获得相关概念。
(4)尝试利用基于深度神经网络(Deep Neural Network,DNN)的方法来实现对短文本的语义理解,但是此类方法面临高计算开销和缺乏标注数据的现实挑战。例如,面向文本理解任务,首先从概率化词汇知识库中为短文本中的每个词语获得相关概念及共现词语,然后采用基于深度神经网络自动编码器来进行语义编码。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。