在上述理论的基础上,本章给出了热点话题演化中的噪声特征识别方法,识别框架图如图6-6所示。从图6-6所示的框架图中可以看出,噪声特征识别的核心步骤有四个:相似度计算、特征ksi的归属判断、权重更新计算及阈值比较。我们以本书第3章给出的话题模型BDTM-Ⅱ作为表示模型,计算新报道s和话题topicj的相似度,如果相似,则s视为话题的相关报道;判断相关报道s中的特征是否属于话题topicj的更新特征集合,如果不属于,则直接将该特征加入集合Uj,并计算其初始权重,如果属于,则进入第三个步骤权重的更新;权重更新涉及该特征的间断性和分布性量化,进而计算出衰减函数f(A,B)的值,实现权重的动态更新,得到特征ksi更新后的权重;阈值比较即判断特征ksi更新后的权重是否小于指定的噪声阈值,如果小于则将其视为噪声,且从集合Uj中删除,噪声阈值依据文献[140]定为0.2。
图6-6 热点话题演化中的噪声特征识别框架
结合上述的噪声特征识别框架,本书给出了热点话题演化过程中的噪声特征识别算法。
输入:相关报道中出现的新特征ki,预设要考虑的后续相关报道数δ,噪声阈值θ。
输出:判定特征ki是否为噪声。(www.xing528.com)
Step 1.判断特征ki是否再次在δ个相关报道中出现:如果出现,则获得特征ki首次再现的时间tnew,并计算ΔT=|tnew-ti|;如果没有再现,则将δ个相关报道按时间序列排序后,最后一个报道的发生时间作为tnew,并计算ΔT;
Step 2.采用for循环,获得包含特征ki的话题数numti,计算B=numti-1;
Step 3.采用式(6-20)计算特征ki的衰减后权重wi;
Step 4.阈值判断:如果wi<θ,则认为特征ki为噪声,否则将其作为话题的表示特征加入话题向量。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。