(一)定义
概率潜语义分析(PLSA)是基于双模式和共现的数据分析方法延伸的经典的统计学方法。概率潜语义分析应用于信息检索、过滤,自然语言处理,文本的机器学习或者其他相关领域。概率潜语义分析与标准潜在语义分析不同的是,标准潜在语义分析是以共现表(就是共现的矩阵)的奇异值分解的形式表现的,而概率潜在语义分析却是基于派生自LCM的混合矩阵分解。考虑到word和doc共现形式,概率潜语义分析基于多项式分布和条件分布的混合来建模共现的概率。所谓共现其实就是W和D的一个矩阵,所谓双模式就是在W和D上同时进行考虑。
PLSA是更为先进的方法。它解决了同义词和多义词的问题,利用了强化的期望最大化算法(EM)来训练隐含类(潜在类)。而且相对于LSA,有了坚实的统计学基础。类似于LSA的思想,在PLSA中也引入了一个Latent class,但这次要用概率模型的方式来表达LSA的问题。
(二)PLSA的优势
①定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释。
②相比于LSA隐含了高斯分布假设,PLSA隐含的Multi-nomial分布假设更符合文本特性。
③PLSA的优化目标是KL-divergence最小,而不是依赖于最小均方误差等准则。
④可以利用各种model selection和complexity control准则来确定topic的维数。(www.xing528.com)
(三)PLSA的不足
①概率模型不够完备。在document层面上没有提供合适的概率模型,使得PLSA并不是完备的生成式模型,而必须在确定document的情况下才能对模型进行随机抽样。
②随着document和term个数的增加,PLSA模型也线性增加,变得越来越庞大。
③当一个新的document来到时,没有一个好的方式得到$p(d_i)$。
④EM算法需要反复的迭代,需要很大计算量。
针对PLSA的不足,研究者们又提出了各种各样的topic based model,其中包括大名鼎鼎的Latent Dirichlet Allocation(LDA)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。