首页 理论教育 网络舆情研究:噪声特征权重衰减方法

网络舆情研究:噪声特征权重衰减方法

时间:2023-11-04 理论教育 版权反馈
【摘要】:如果新引入的特征是噪声特征,一般具备明显的特性,上节已经给出量化方法,本节将提出依据分布性和间断性的权重衰减计算。分析可知,噪声的来源是集合Uj,对集合Uj中的特征的有效筛选可实现话题的有效演化。我们将衰减函数设定为:其中,α为衰减系数,比较式和式可以发现,权重衰减的程度和函数f(A,B)成正比,即时间距离和分布量越大,特征是噪声的可能性就越大,权重衰减越多,最终的权重wsi-finnal就越小。

网络舆情研究:噪声特征权重衰减方法

如果新引入的特征是噪声特征,一般具备明显的特性,上节已经给出量化方法,本节将提出依据分布性和间断性的权重衰减计算。假设集合Cj表示话题topicj的初始核心术语集(即从最初的新闻报道中选择的描述特征),Uj表示话题发展过程中引入的新特征组成的集合。为了保证初始核心守恒,降低话题漂移现象产生的概率,在话题演化过程中,我们假定集合Cj保持不变;为了体现话题的发展变化,集合Uj将随着话题的发展而不断更新,初始时,集合Uj为空集。分析可知,噪声的来源是集合Uj,对集合Uj中的特征的有效筛选可实现话题的有效演化。Cj、Uj和topicj分别表示为:

kcji(i=1,2,…,m)表示初始核心特征,kuji(i=1,2,…,n)表示话题发展过程中引入的新特征。假设在话题识别与追踪过程中,在时刻t,追踪到话题topicj的相关报道s,则需要处理如下问题:

(1)如果相关报道s中的特征ksi不在Uj中,应如何处理?

(2)如果相关报道s中的特征ksi在s中,应如何处理?

对于问题(1),直接将新特征加入Uj,并采用Brants等[34]提出的增量式权重计算方法计算权重wsi,如式(6-18)、式(6-19)所示;对于问题(2),则需要依据特征的分布性和间断性对该特征的权重wsi进行更新计算,获得最终权重wsi-finnal,计算方法如式(6-20)所示。

式(6-17)中f(topicj,ksi)表示特征ksi在话题topicj中出现的频度,Nt表示t时刻的话题总数,dft(ksi)表示t时刻出现特征ksi的话题数。Zt(topicj))是一个规范化因子。(www.xing528.com)

其中,A用于度量特征ksi间断的时间距离,B用于度量特征ksi分布的话题数(即包含特征ksi的话题数),f(A,B)为权重衰减函数,其值大于等于0,且f(A,B)的值随变量A,B的增大而增大。我们将衰减函数设定为:

其中,α为衰减系数,比较式(6-20)和式(6-21)可以发现,权重衰减的程度和函数f(A,B)成正比,即时间距离和分布量越大,特征是噪声的可能性就越大,权重衰减越多,最终的权重wsi-finnal就越小。为了增强衰减函数的应用性,我们依据话题之间相对独立的特点,给出自适应计算衰减系数α的目标函数F(α)。首先对于任意话题topici(1≤i≤n),α的值应能保证topici和其他n-1个话题的相似度最小,即:

要保证n个话题中的任意一个话题均与其余n-1话题满足式(6-22)所示的条件,则设置目标函数F(α)为:

在实证研究中,我们将采用枚举的方法,将间隔设为0.1,对目标函数F(α)求解,获得衰减系数α的较优取值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈