显式语义分析模型是显式语义建模模型的典型代表,其向量空间的构建由知识库辅助完成(通常选择百科知识库,如Wikipedia),旨在构建一个庞大的词语与“概念”(通常选用Wikipedia文档作为“概念”)的共现矩阵,矩阵中的元素为词语和“概念”之间的词频−逆文档频率。Gabrilovich等[15]提出的显式语义分析(Explicit Semantic Analysis,ESA)是基于Wikipedia的文本语义表示的经典方法。ESA使用Wikipedia的文章及其之间的链接信息,把文本表示为由概念(该研究将Wikipedia文档作为“概念”)构成的向量,在词语相关度计算、查询扩展、文本分类等自然语言处理任务中得到了广泛应用[78]。ESA模型表达的是文本与维基概念之间在统计意义上的相关性,概念向量中的各元素之间与词袋法一样维持了独立性假设,因此ESA模型对文本实际语义的直观解释能力依然较弱。
ESA模型借助通用知识库,将自由文本表示为一组由概念构成的向量,通常采用Wikipedia训练得到[79]。给定一组概念(对应于Wikipedia的文章标题)集合{c1,c2,…}和与之关联的文档(即Wikipedia文章的内容{s1,s2,…},ESA模型构造 一个稀疏矩阵M,其中每一列表示一个概念,每一行对应于一个出现于中的词语,稀疏矩阵M中的每个元素M [i,j]对应于出现在文档sj中的词项wi的TF−IDF值。需要注意的是,并非所有文档对于ESA模型都有相同的效果,可以从内容和链接关系两个方面对Wikipedia的原始文章进行过滤:在内容方面,如果概念c是跳转页面、消歧页面、列表页面,或者文章s所包含的词语数量少于一定体量阈值(如200),则将其作为非重要文章过滤;在链接关系方面,如果文章s的出入链之和小于一定阈值(如20),则将其过滤。
为建立ESA模型,对过滤后的Wikipedia数据进行扫描,计算每个词语−文章对的TF−IDF值,形成最终的ESA模型的矩阵M,并进一步维护维基百科文章到类别的隶属关系,用于后续的种子类别选取,从而构成自由文本到层次路径之间的桥梁关系。
在构建矩阵M之后,给定短文本s={w1,w2,…},其显式语义概念分布φC可由以下公式计算得到:
式中,TF(wi,s)——词语wi在文本s中的词频;(www.xing528.com)
IDF(wi)——词语wi在所有Wikipedia数据集上的逆文档频率;
M[i;·]——矩阵M中词语wi所对应的行向量,即其显式语义向量。
原始的ESA模型没有对共现矩阵进行降维处理,因而产生的词向量具有较高维度。在短文本理解这一任务中,需使用额外的语义合成方法推导短文本向量。进一步,为获取短文本的主要语义概念和降低向量维度,可以对Cφ按照其元素ci的得分pi进行降序排序(pi表示概念ci与短文本s的语义相关程度),并挑选前kC个元素作为短文本最终的显式语义分析结果,形式化表示为
通过观察可以发现,ESA模型所产生的向量的每个维度代表一个明确的知识库文本(如Wikipedia文档文章(或标题)),因此具备可解释性,对于人类和机器都具备认知性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。