实验部分包括三项:第一项实验采用枚举法获得衰减系数α的预设值:第二项实验以文献[15]提出的动态话题模型BDTM-Ⅱ作为表示模型,比较仅考虑间断性、仅考虑分布性和二者同时考虑时,话题追踪的性能;第三项实验验证话题演化过程中,本章提出的噪声识别方法对话题漂移现象的控制。
1.衰减系数α的确定
系数α用于控制间断性和分布性对权重衰减的影响,取值范围定为[0,1]。依据式(6-22)可知,测试集中话题不同则α可能会有所不同,TDT4中文语料有40个中文话题,针对这些话题我们尝试采用枚举法获得当前较优的α值。实验结果如表6-2所示,从表6-2可以看出,当α=0.3时,函数F(α)的值最小,为0.3718,故将其值粗略定为0.3。
表6-2 不同衰减系数α对应的F(α)值
2.三种情况下话题追踪性能比较
噪声识别算法的提出是对数据预处理部分的优化,可以使得选择的特征准确地表示目标,提高话题识别与追踪的综合性能。该项实验仍然以第3章介绍的信念网络的动态话题模型作为表示模型,验证噪声识别中仅考虑分布性、时间距离和二者同时考虑时模型的最优性能,实验结果如表6-3所示。
表6-3 不同情况下最优性能比较
(www.xing528.com)
观察表6-3可以发现,与仅考虑分布性、仅考虑时间距离相比,如果噪声识别算法同时考虑分布性和时间距离,则模型的性能最优,即Optimal((Cdet)norm)值最小。
3.对话题漂移现象的控制
话题形成之初,排序靠前的特征可以描述话题的核心内容。随着话题的演化,如果由于噪声特征的介入,使得初始排序靠前的核心特征排序变得靠后甚至消失,则容易出现话题漂移现象。如果初始排序靠前的核心特征在话题演化的过程中始终占据核心地位(即排序没有大的变动)则可有效避免话题漂移现象的产生。图6-7、图6-8为话题41020中初始排序为前六的特征“爆炸;教堂;印尼;政府;受伤;死亡”在话题演化过程中的排序变化图。其中横轴为追踪到的相关报道的编号,纵轴为特征排序的倒数。图6-7为未使用噪声识别算法时这些特征的排序变化,图6-8为使用该算法后特征的排序变化。可以看出,使用噪声特征识别算法后,核心特征的排序变化较小,可以始终保持核心地位,故能够在一定程度上避免话题漂移现象的产生。
图6-7 未使用噪声识别时话题初始排序前六的特征排序变化
图6-8 使用噪声识别后话题初始排序前六的特征排序变化
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。