首页 理论教育 网络舆情研究:基于聚类与时间因素的话题特征选择

网络舆情研究:基于聚类与时间因素的话题特征选择

时间:2023-11-04 理论教育 版权反馈
【摘要】:在特征选择中,高频信息的作用是不容忽视的,为此文献[104]在聚类思想的基础上,融合类信息和高频词信息,提出新的互信息特征选择方法CMI。依据式,计算出初始互信息值BMI=1.0226,BMI=0.1645,即高频词k2的互信息远远低于频度仅为1的特征k1的互信息,而k1很可能是噪声数据。结合上例,文献[104]给出了基于聚类的互信息计算CMI,假设有类C1,C2,…Step 4.仍采用式计算聚类后特征的互信息值BMI'(,kj),因为此时的类已不再是C1,C2,…

网络舆情研究:基于聚类与时间因素的话题特征选择

基本互信息计算方法偏爱独特特征,即在较少类中出现的特征其互信息值较高,即使该特征的频度很低,而对于在多个类中均出现的特征,即使其特征频度较高,其互信息值依然很低。在特征选择中,高频信息的作用是不容忽视的,为此文献[104]在聚类思想的基础上,融合类信息和高频词信息,提出新的互信息特征选择方法CMI。表4-1给出了4个类别C1,C2,C3,C4,假定四个类别涉及4个特征k1,k2,k3,k4,详细信息如表4-1所示,表中数字表示词频。

依据式(4-10),计算出初始互信息值BMI(C1,k1)=1.0226,BMI(C1,k2)=0.1645,即高频词k2的互信息远远低于频度仅为1的特征k1的互信息,而k1很可能是噪声数据。从理论上分析,BMI(C1,k1)高的原因是:与k2相比,k1的类辨别能力更强,其仅在类别C1,C4中出现,而k2在四个类别中均出现了,即互信息过分强调类信息而忽略了高频词的重要性。在话题识别与追踪领域,具有相同高频特征的新闻报道往往属于同一个话题,所以可将其先聚为一类,然后再计算特征的互信息,依据这个思想,表4-1变化为表4-2。

表4-1 特征分布情况

表4-2 聚类后的特征分布情况

表4-2中特征k1,k2重组后类别的互信息分别为,BMI'(,k2)=0.2505,很明显特征k1和类别负相关,其互信息值明显低于高频词k2的互信息。即经过聚类处理,使得高频词成为大类中有用的词汇。

结合上例,文献[104]给出了基于聚类的互信息计算CMI,假设有类C1,C2,…,Cm,其计算步骤如下:

Step 1.采用式(4-10)计算出每个特征ki的基本互信息BMI(Ci,kj)。

Step 2.确定高频词,如果类Ci中特征kr的词频大于10,则将其定为高频词(阈值10为暂定值,其值的确定和新闻语料的性质有关,例如报道的长短)。

Step 3.高频词聚类,如果高频词kr在多于一个类中出现,且在其他类中也为高频词,则将这些类聚为一大类。例如,假设特征kr在类Ck、Cj中也出现,且在其中的频度均大于10,则将Ci、Ck和Cj聚为大类。在基于高频词聚类过程中,类Ci中不一定只有kr一个高频词,也可能有其他高频词,这时将涉及应将Ci聚到哪一个大类,本章提出的聚类方法允许一个子类可以归到多个大类中。(www.xing528.com)

Step 4.仍采用式(4-10)计算聚类后特征的互信息值BMI'(,kj),因为此时的类已不再是C1,C2,…,Cm,故BMI'(,kj)≠BMI(Ci,kj)。

以上计算结果中的BMI(Ci,kj)考虑了类信息,BMI'(,kj)考虑了高频词信息,为避免基本互信息方法的缺点,给出如下互信息计算方法:

其中,α∈(0,1)为调整因子,用于调整高频信息和类信息对最终互信息值的贡献度。

随着时间的推移,新闻话题将不断融入新的信息,某些特征可能多次重复出现,某些特征可能再也没有出现,若始终保持特征的互信息不变,显然不合理。理论上,新闻话题ts已经选择的特征ki如果在新的相关报道中再次出现,则互信息值应该提高,这里采用最简单的线性提高策略,即:

其中,DCMI(ts,ki)表示更新后的互信息,CMI(ts,ki)表示更新之前的最近互信息,Δw表示提高因子。相关报道sn和话题ts的发生时间距离越近,则新报道中的特征对话题的描述性越强(权重越大),即时间距离Δtimei反比影响互信息的调整,式(4-17)中采用指数衰减体现二者的关系。此外,仅采用时间因素动态调整互信息尚有不足,假设属于不同新闻报道的两个特征km(km∈sm),kr(kr∈sr)的时间距离相同,特征所属报道和话题的相似度不同,这种情况下,若仅采用时间距离调整km和kr的互信息值,则二者的调整值相同,但是,从理论上说,如果Sim(ts,sm)>Sim(ts,sr),则特征km的提高幅度应大于特征kr,故将话题和报道的相关度Sim(ts,sn)作为动态调整互信息的另一个影响因素,综上,式(4-16)可修改为:

其中,ε1,ε2是可调整因子,用于调整两个影响因素对最终动态互信息DCMI(ts,ki)的贡献,Δtimei=timenew-timenearest,其中timenew表示包含特征ki的当前报道发生时间,timenearest表示距离当前时间最近的包含特征ki的报道发生时间。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈