在XML研究论文的数据集中,每篇文献包含类型、标题、作者、作者地址、摘要、关键词等。本书使用文档的标题、关键词、附加关键词和摘要作为文档的文本表示,为了避免词形变化带来的噪音,实验使用了PorterStemmer对文本进行词干提取,由此得到文档的文本表示。在文档的词汇表示上,本书没有做搭配抽取,而是将词汇直接用于主题分析,这样做的原因在于方便同其他方法进行比较。根据经验性知识,实验中设定主题数量为50。实验使用Gibbs抽样算法对LDA模型的参数进行计算,采用了经验性的参数设定,Beta参数初始设置为0.01,Alpha为1,这样的参数设置能够得到较好的收敛速度。
利用LDA算法,可以得到文档集的文档-语义主题分布、词汇-语义主题分布、文档-词汇-语义主题分布。其中,对本书实验作用较大的主要有文档-语义主题分布和词汇-语义主题分布,具体结果见附录1所示。图5-4给出了词汇-主题分布的一个示意图,显示了9个语义主题及词汇-主题概率最高的10个词汇。每个主题标号为“TOPIC_”+主题编号,第一个语义主题即“TOPIC_1”,编号后的浮点数给出了主题在整体文档集中的比例,这里的比例给出了文档集中随机抽样结果的语义主题倾向性。实验使用了人工标注的方式为每个语义主题赋予了一个或多个词汇标签,以显示主题的概念归属。图中的每个主题下给出了概率最高的10个词汇及其概率。需要注意的是,同一个词汇可能会在多个主题中出现,但不同主题下同一词汇具有不同的语义,这也正是词汇多义性的体现。
图5-4 LDA算法得到的词汇-主题分布
从计算结果可以看出,XML相关文档的主题大致可以分为两个方面:文档语义主题和文档的结构性词汇构成的主题。出现这种情况的原因在于,实验中使用的文档文本表示的主体是文档的摘要,而摘要往往是具有一定结构的,其形式相对固定。结构性词汇同文档的语义主题是相对独立的,在实验结果中,共有5个主题主要表现为结构性词汇,其他45个主题具有相对独立的含义。主要的结构性词汇包括:base(0.18029)、paper(0.06036)、feature(0.03391)、introduce(0.03236)、analyze(0.02938)、present(0.02805)、discuss(0.02730)、mechancial(0.02486)、finally(0.02272)、realize(0.02228)。(www.xing528.com)
从抽取结果看,LDA模型能够较好地反映文档的语义主题分布,主要的语义主题包括:XML结构、XML检索、语义网络、Web Service,等等。概率最大的语义主题反映的内容是XML查询与XML读取方法,代表性词汇包括“xml”“xpath”“xquery”等;其次是Web Service,代表性的词汇包括“web”“service”“soap”等。从整体上看,LDA主题抽取的结果同我们的直觉是相似的。
语义主题的相似度也可以进一步通过文档-语义主题分布、词汇-语义主题分布得到,图5-5即给出了词汇语义相似计算结果的一个示意图,图中主要以距离反映了词汇的相关性,每个片断中的词反而并不太重要。
图5-5 语义主题分布
主题模型本质上是将文档、词汇抽象到不同的语义主题维度进行分析,这样可以有效地解决词汇的同义和多义问题。在主题模型中,词汇表现为语义主题的概率分布,语义主题分布显示了词汇在不同语义上的倾向性,也就是说,同一个词汇能够表现出多种主题意义;词汇的主题概率分布表示也使得计算不同词汇的主题相似性成为可能,两个词汇的语义主题分布越相似,则词汇同义的可能性越大;另外,不同词汇在各个主题维度上抽象也给出了这些词汇有多大的可能表现为同一个主题。主题模型利用了词汇的共现关系,但它超越了基本的语言模型限定,而将共现关系投影到语义的维度上,进而对文档、词汇的语义主题分布进行计算,以获得文本、词汇的语义相关性知识。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。