首页 理论教育 网络舆情分析关键点建模与发现-信息内容安全的新闻信息处理技术

网络舆情分析关键点建模与发现-信息内容安全的新闻信息处理技术

时间:2023-11-23 理论教育 版权反馈
【摘要】:一般称这些强烈感情评论占有较大比例的话题为极性话题,相应地称正面的强烈感情评论占有较大比例的话题为正极性话题,负面的强烈感情评论占有较大比例的话题为负极性话题,并建立相应的发现模型。网络舆情监控系统的一个重要功能是发现其中的敏感话题,并根据敏感话题设定的阈值决定是否发出预警。在t3时刻,该话题的观点对立度开始转为下降,此时刻称为该话题的拐点。

网络舆情分析关键点建模与发现-信息内容安全的新闻信息处理技术

1.热点话题发现[3]

热点话题指过去某一段时间内,被网民多次反复提及和讨论的话题。参与讨论的人越多,说明该话题的热度越大。热点排行时根据主题文章聚类的结果,可以很容易的得到每个簇的参与讨论的人次数,因此得到热点模型:

978-7-111-33166-7-Chapter07-1.jpg

式中,pi是当前主题簇中主题的参与讨论的人次数目,k为簇中主题的个数。

2.极性话题发现

评论的情感强度反应了网民对参与话题的情感强度,对于那些包含强烈感情评论的话题,舆情监控系统需要给予更多的关注。一般称这些强烈感情评论占有较大比例的话题为极性话题,相应地称正面的强烈感情评论占有较大比例的话题为正极性话题,负面的强烈感情评论占有较大比例的话题为负极性话题,并建立相应的发现模型。

按照评论的情感因素把评论分为弱极性和强极性两种,用强极性评论在所有评论中占有的比例作为整个话题的极性,即

978-7-111-33166-7-Chapter07-2.jpg

相应地建立正负极性话题的发现模型:

978-7-111-33166-7-Chapter07-3.jpg

在系统设定一个规模阈值H,就可以发现热点话题中的极性话题。

3.焦点话题发现

热点话题之间并不是完全类似的,在有的话题中评论者之间的关系是融洽的,他们发表的评论大多具有一致的倾向性,他们仅仅对于该主题比较感兴趣而参与讨论;而在另一些话题中,评论者之间往往体现出尖锐的对立性,双方各执一词,争论不休,一方对当前话题的内容表现出支持的态度,另一方对当前的话题内容表现出反对的态度。于是在评论中体现出了很强的对立性。为了表示这种对立性,引入了观点对立度的概念。

定义:参与评论的网民之间评论倾向性的离散程度或者说两种极性观点对立的程度称为观点对立度。

观点对立度具有以下几个特点:

(1)与极性评论比例成正比,极性评论越多,对立度越高;

(2)与中性(无关)评论比例成反比,中性(无关)评论越少,对立度越高;

(3)与评论倾向程度相关,倾向性越明显,对立度越高。

与对立评论双方数量规模相关,双方规模越接近,对立度越高;规模越悬殊,对立度越低。

根据上述特点,建立如下数学模型

引入表示:

(1)倾向性权重值(-Wk,…,-W2,-W1,0,W1W2,…,Wk),k为模型中倾向性程度级别数目。Wk是第k级倾向性权重值。(www.xing528.com)

(2)各级别评论数目(Nk,…,N2N1,0,P1P2,…,Pk)其中Nk表示负极性为第k级的评论的数目;Pk表示正极性为第k级的评论的数目。

978-7-111-33166-7-Chapter07-4.jpg

其中,第一个除式的分子是加权倾向性和,分母是总的评论数目。第二个除式相当于一个修正因子,只有当正负极性加权值相等时,才达到最大值1,否则如果只有一方的评论数目大,另一方很小,则最后的观点对立度数值就会比较小。

为了反映话题对立性的影响范围,在观点对立度的基础上给出话题焦度的定义如下。

定义:话题的评论双方观点对立性的影响程度称为焦度。计算公式:

978-7-111-33166-7-Chapter07-5.jpg

其中基准量λ为了使焦度计算结果更规范一些,避免出现很大的数值。代入观点对立度计算公式,消去评论规模得到新的焦度计算公式:

978-7-111-33166-7-Chapter07-6.jpg

基准量λ可以根据应用的规模进行设定,例如1000或者10000。计算各话题的焦度,即可以得到话题的焦度排行,发现其中的焦点话题。

4.敏感话题发现

网络中的话题随着时间的推进,以及某些相关事件的发生,往往呈现出一定的波动和变化,某些话题的观点对立度可能随着时间的推进持续升高,而有些话题的观点对立度可能会持续下降,有些话题可能维持一种相对稳定的状态。用户往往关注在过去某个时间段之内观点对立度上升较快的话题,我们称这样的话题为敏感话题。网络舆情监控系统的一个重要功能是发现其中的敏感话题,并根据敏感话题设定的阈值决定是否发出预警。下面给出敏感度数学模型:

978-7-111-33166-7-Chapter07-7.jpg

其中ji分别是j时刻和i时刻话题的观点对立度,除式分母是时间差。

研究发现,对于较小规模的话题,即使其观点对立度在一段时间内上升较快,但是由于参与的规模不大,不能代表较多的网民的观点,因此在进行敏感话题发现时需要考虑其规模因素,只有达到了一定的规模,才触发预警。

5.话题走势分析

通过绘制话题的热度随时间变化的曲线图,我们可以定位舆情事件的发生时刻,图7-1所示为某话题随时间变化的曲线图,可以看出话题在t1t2t3t4两个时间段发生明显的上升,由此可以推测在这两个时间段内发生了对舆情有重大影响的事件。

978-7-111-33166-7-Chapter07-8.jpg

图7-1 某话题热度变化图

通过绘制话题的观点对立度随时间的变化图,就可以对话题走势进行分析。例如图7-2所示为某话题的观点对立度随时间变化的曲线图,可以看出,在t1t2之间,该话题的观点对立度上升较快,应当是那个时间段的敏感话题。在t3时刻,该话题的观点对立度开始转为下降,此时刻称为该话题的拐点。如果话题拐点已经出现,说明该话题的舆论压力已经缓解,此时舆情已经得到有效的引导与排解,人们的观点正在趋于平缓。

978-7-111-33166-7-Chapter07-9.jpg

图7-2 某话题观点对立度变化图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈