首页 理论教育 使用LDA技术挖掘服务质量评价指标

使用LDA技术挖掘服务质量评价指标

时间:2023-05-19 理论教育 版权反馈
【摘要】:表4.2LDA模型中各符号的含义在LDA模型中,只有词项是可观察的,其他的变量均为未知的隐含变量。在LDA主题模型中,需要确定的主题数目是不确定的,需要根据主题分布的明确性以及从主题词分布中提取指标的辨识度确定最佳的主题数目K,以及先验参数α、β和吉布斯采样迭代次数。对每个主题下的词进行分析可以挖掘出潜在主题,从而构成服务质量评价指标。

使用LDA技术挖掘服务质量评价指标

2013年Blei等提出了LDA(Latent Dirichlet Allocation)模型,对PLSA模型进行类似于Unigram Model的贝叶斯改造,将主题和主题下对应的特征词都引入了先验分布。贝叶斯和频率学派之间观点的不同之处:频率学派认为一个变量的概率是固定的,为了确定这个变量而抽取的样本是不固定的,也就是说通过不同的样本进行实验计算,其得到的变量的概率是一个恒值;而贝叶斯学派认为变量的概率值本身就是一个变量,它服从一个先验分布,通过固定的样本得到的概率也是变化的。靳志辉提供的贝叶斯化的Unigram模型和贝叶斯化的PLSA模型如图4.5所示。

LDA是一种非监督机器学习技术,可以用来识别大规模文档集(Document Collection)或语料库(Corpus)中潜在的主题信息。LDA模型的层次结构为非常清晰的三层结构:文档—主题—特征词三层结构(如图4.6所示)。它的基本思想是认为每一篇文档是由多个隐藏主题构成的,不同文档下包含的每个主题出现的概率是不一样的;而每个主题是由多个特征词构成,不同主题下包含的每个特征词也是不一样的。LDA采用词袋(Bag of Words)的方法,得到每一篇文档的主题向量,作为建立模型的数学信息基础。由于词袋方法没有考虑词与词之间的顺序,这大大简化了建模的复杂性。

图4.5 贝叶斯化的Unigram和PLSA模型

(一)LDA主题建模

LDA模型可以看作是两个贝叶斯化的Unigram模型通过隐藏主题集成在一起而生成的模型,其概率图模型如图4.7所示,其中各项符号的含义如表4.2所示。

图4.6 LDA模型层次结构图

图4.7 LDA模型的概率图模型

文档的生成过程包括两个物理过程:

(1),这个过程表示根据文档的主题分布随机分配一个主题,以生成第m篇文档的所有词所对应的主题。

(2),这个过程表示在上一过程给定的主题下,根据该主题在词项上的分布随机分配一个词,以生成第m篇文档的所有词项。

表4.2 LDA模型中各符号的含义

在LDA模型中,只有词项是可观察的,其他的变量均为未知的隐含变量。α和β都是根据经验给定的先验参数。根据以上模型,在给定文档的长度,以及先验参数的情况下,可以得到主题和特征词的联合概率为:

将上式对θ和z积分,可以得到单篇文档的边缘概率【18-19】:

我们想要求得LDA模型的参数是θm和φk两个概率矩阵,这个处理过程是通过吉布斯采样(Gibbs Sampling)进行参数估计推理,其具体流程如图4.8所示。

图4.8 LDA吉布斯采样流程(www.xing528.com)

吉布斯采样的思想是在给定其他维度的变量值的条件下,每次选取概率向量的一个维度来更新当前维度的值,通过一定的迭代次数,直到吉布斯收敛输出待估参数,其采样公式为【17,18,20】:

由于θm,k和φk,t为Dirichlet的后验分布参数,根据Dirichlet分布的期望计算公式:

故这两个参数的估计值分别为:

式中各项符号含义如表4.3所示。

表4.3 吉布斯更新公式中各符号的含义

(二)语料库的预处理

一般来说,获得的顾客评论信息多数文本长度短、信息量少、离散度高且规范性较低,而输入决定输出,数据清洗对生成一个有效的主题模型是极其重要的,故需要对获取的原始语料库进行预处理,尽量降低噪声数据对数据分析的影响。预处理步骤如下:

(1)利用Python中的jieba分词包进行分词处理,将文档转化为原子元素。

(2)整合哈工大停用词表、百度停用词表、四川大学机器学习智能实验室停用词表等去掉停用词和标点符号

(3)词性过滤和词干提取,根据词性移除掉意义不大的词,主要是非语素字,结构助词的、地和时态助词了、着等对文档主题提取无意义的词;根据词频提取出关键字。

(三)主题分析

根据LDA模型获得每篇文档的主题分布:D=[z1,z2,…,zk],其中下标k表示文档D所在主题。利用每篇文档的主题向量作为该文档的特征向量,根据向量中的最大值确定该文档的主题。

在LDA主题模型中,需要确定的主题数目是不确定的,需要根据主题分布的明确性以及从主题词分布中提取指标的辨识度确定最佳的主题数目K,以及先验参数α、β和吉布斯采样迭代次数。

根据每个主题下每个词的词频高低对词进行编号,编号越靠前,词频越高。对每个主题下的词进行分析可以挖掘出潜在主题,从而构成服务质量评价指标。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈