给定短文本s={w1,w2,…,wl},其中,wi表示词语,l表示短文本长度(即词语数量)。参照以往研究对短文本概念化任务的定义[5,17],以该短文本作为算法输入,短文本概念化可以实现:从知识库中获得概念分布φC={〈cj,pj〉|j=1,2,…,kC}来表示短文本s。其中,pj表示概念cj的概率,kC表示所识别出的概念的数量。
对于本书重点研究的基于词语和概念联合排序策略的短文本概念化表示建模,使用由知识库 Probase 构建的概念空间,算法的输出除了上述概念分布φC以外还包括:获得短文本的关键词分布φW={〈wr,δ(wr)〉|r=1,2,…,kW}。其中,δ(wr)表示词语wr的打分,表征词语对短文本整体语义建模的重要程度;kW表示所获得的关键词的数量。(www.xing528.com)
需要注意的是,本书重点研究的短文本概念化表示任务与词义消歧(Word Sense Disambiguation,WSD)任务[110−111]和实体链接(Entity Linking)任务[112−113]存在本质区别。短文本概念化表示任务旨在生成能够合理表达给定短文本的概念集合,然而词义消歧任务旨在获得个体词语的准确释义,而不涉及对短文本整体的理解。实体链接任务所使用的知识库是百科知识库(如Freebase等)且不需要产生对短文本的整体表示,而短文本概念化任务所使用的知识库是词汇知识库(如Probase等)且需要产生对短文本的整体表示。为了便于表述,本书将短文本中的词语集合表示为W={w1,w2,…,wnW},将候选概念集合表示为{c1,c2,…,cnC},将短文本概念化算法得到的最优概念集合表示为C={c1,c2,…,ckC}。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。