【摘要】:统计分析需要依托充足的内容,但短文本缺乏足够的上下文信息用于统计分析,因此基于传统统计分析的算法在短文本上的文本挖掘结果往往解释性较差。此类方法在一段时间内成为文本分析与概念化的主流,但是存在以下缺陷:找到潜在主题并不等同于“理解”了文本。每个潜在主题被表示成一组词语的组合,机器无法理解这组词语背后的概念,也无法感知这些概念的属性以及关联。以基于潜在狄利克雷分布模型的短文本概念化方法为例。
统计分析需要依托充足的内容,但短文本缺乏足够的上下文信息用于统计分析,因此基于传统统计分析的算法(如词袋模型、主题建模方法等[2−3,114])在短文本上的文本挖掘结果往往解释性较差。例如,在以往关于主题检测(Topic Detection)的相关研究中,主题模型将文本视为向量空间上的词袋、将主题视为“概念”,用于从文本中挖掘潜在主题(Latent Topic)[13,89,101]。此类方法在一段时间内成为文本分析与概念化的主流,但是存在以下缺陷:
(1)找到潜在主题并不等同于“理解”了文本。每个潜在主题被表示成一组词语的组合,机器无法理解这组词语背后的概念,也无法感知这些概念的属性以及关联。
(2)由于短文本(如搜索引擎中的查询、问答系统中的问句、社交媒体中的推文等)没有充足的内容用于训练生成一个可靠的主题模型,因此使用这类传统统计方法试图在短文本上挖掘主题很难取得很好的效果。(www.xing528.com)
以基于潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的短文本概念化方法为例。以主题视为“概念”,给定短文本s={w1,w2,…,wl}∈Δ,通过在数据集Δ上运行基于潜在狄利克雷分布模型(设置主题数目为kC),从“文本−主题”分布θs中将当前短文本生成主题分布作为概念分布:φC=〈{zi,pi〉|i=1,2,…,kC}。其中,zi表示主题,每一维度的概率代表pi一个该短文本s映射到相应主题zi上的概率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。