首页 理论教育 网络舆情:热点话题研究成果

网络舆情:热点话题研究成果

时间:2023-11-04 理论教育 版权反馈
【摘要】:图5-1为从知网查询的和“热点话题”相关的研究成果中,相关度排序前100名的文献引文关系图。如果话题是单中心话题,即仅包括一个核心内容,则可能会忽略话题的有效演化,进而提高热点话题发现的漏报率,为解决该问题,提出了话题多中心模型。基于上述理论,文献[115]最终给出了多中心话题的建立过程及基于多中心的热点话题发现算法。

网络舆情:热点话题研究成果

当前主流的热点话题发现方法是CHI检验方法[110],该方法考虑到热词可直接体现话题的热度,所以从提取热词的角度展开热点话题的研究,其缺点是没有考虑时间因素对话题热度的影响。据此,陈羽中等[111]在考虑时间因素的基础上,提出了基于老化理论和词生命值的话题热度计算方法,该方法虽然考虑了时间信息,但是并没有将其量化,时间信息的量化可以更为准确地度量其对话题热度的影响。饶洁等[112]采用粒子群算法进行迭代,把迭代过程中该话题的最高影响力作为最终影响力,然后根据阈值比较,判断该话题是否为热点话题。针对电商平台中的热点话题问题,伍万坤等[113]提出了一种基于LDA理论的热点话题挖掘模型,该模型包括两个子模型:ET-LDA和IT-LDA。

图5-1为从知网查询的和“热点话题”相关的研究成果中,相关度排序前100名的文献引文关系图。观察图5-1可以发现,该领域的研究成果的引文关系比较紧密,本章将图5-1中权威节点(被引用次数、被下载次数较多的节点)作为代表性成果,做简单介绍,目的是让读者对该领域的研究成果有一个较为全面的认识,并为本章将要提出的热点话题发现算法做知识铺垫。

图5-1 “热点话题”相关文献引文关系图

表5-1列出了“热点话题”相关文献中的具有代表性的节点的相关信息,包括文献名、来源、出版年份、下载次数以及被引用次数。

表5-1 “热点话题”相关代表文献信息

1.融合媒体关注度和用户关注度的热点话题发现

文献[114]较为系统地分析了热点话题的特征,并对其进行了量化,然后依据量化的特征指标分别给出了媒体关注度和用户关注度的计算公式,最后将二者融合,给出了话题热度计算公式。热点话题的特征包括:

1)话题的报道频率

在新闻网站上,一篇新闻报道的核心内容一般是关于一个话题的,如果一个话题比较重要,那么关于这个话题的报道数量也会增加。话题的报道频率越高,表明话题的重要程度越大,受到大众的关注度也越高。故报道频率可以反映一个话题受关注的程度,后续公式中用变量sf表示话题在一个时间单元内的报道频率。

2)话题的分布率

话题的分布率是指单位时间内一个话题的报道数量占这段时间内总报道数量的比值。如果一个门户网站一段时间内发布的新闻集中于某一个话题的分布率越高,则该话题受关注的程度越大。

3)话题的时间属性

每个话题在具备上述两个属性的同时,也具有显著的时间特性。话题的发展趋势图上的起点、终点和时间段构成了话题的时间属性,也就是某个话题的相关报道的时间背景。一个话题被报道的时间越长,说明该话题被关注的时间越长,后续公式中用变量rd表示话题在一个时间单元内的报道天数。

4)话题的阅读人数

在一段时间内阅读某个话题的人数越多,说明该话题受到人们的关注度越大。因为报道来自网络站点,所以可以用人们打开话题的相关报道的人数,即点击数来表示话题的阅读人数。后续公式中用变量cn表示话题在一个时间单元内的点击数。

5)话题的评论人数

在一段时间内人们对某个话题评论越多,说明该话题受到人们的关注度越高。这里用人们对话题的相关报道的回帖数量表示话题的评论人数。后续公式中用变量dn表示话题在一个时间单元内的评论数量。

话题的关注度可以分为媒体关注度和用户关注度,文献[114]将变量sf和rd设为与媒体关注度有关,将变量cn和dn设为与用户关注度有关。由于sf和rd都和媒体的关注度成正比,并且话题的关注度和分布率成正比,故文献[114]给出如下媒体关注度计算公式:

其中,n表示时间单元个数,sfi表示在时间单元i内,与话题相关的新闻报道的报道频率,Di表示时间单元i内的报道总数,rdi表示话题在时间单元i内被报道的天数,ψ是一个时间单元的长度。考虑到即使是热点话题的值也不会超过0.1,而的值一般大于0.1,为了平衡二者的贡献度,将第一个因子乘以10。

考虑到最后要将用户关注度和媒体关注度融合,而一般情况下cn和dn的值比较大,为了合理地融合,用户关注度采用对数函数结合动态调整因子的方法计算:

其中,cni是时间单元i中此话题的点击数量,dni是在时间单元i中此话题的评论数量,λ为动态调整因子。综合式(5-1)和式(5-2),给出话题关注度(即话题热度)计算公式:

依据式(5-3)可以计算出不同话题的热度值,根据阈值比较可以判断该话题是否为热点话题,如果热度值大于预定的阈值,则认为该话题为热点话题。

文献[116]认为上述公式中的关注度计算中,参数的选取具有明显的随意性,为了消除这种随意性对媒体关注度度量的影响,对式(5-1)做出了如下修订:

其中,rn是话题在某段时间内相关报道的报道数量,RN是这段时间内所有报道的总数,N是这段时间内的话题总数,前一个分式的比值反映的正是相对的话题报道频率。rd是话题在这段时间内的报道天数,是所有话题的报道天数的和,后一个分式衡量的是话题报道天数的相对比值。

另外,理论上,用户的一次点击浏览和一次评论显然不能视为同样的关注程度,为了区分这种不同,文献[116]在用户关注度公式中为评论添加了5倍系数对式(5-2)做出修订,即:

综合式(5-4)和式(5-5),文献[116]给出如式(5-6)所示的话题热度计算方法:

2.基于多中心模型的热点话题发现

文献[115]指出,在网络平台中,新闻报道一般包括核心和引申两部分内容。其中,核心内容是网民直接发表的信息,引申内容为围绕核心内容发表的其他相关信息。核心内容是判断一则新闻报道属于哪个话题的关键,故文献[115]将核心内容定义为话题的中心。如果话题是单中心话题,即仅包括一个核心内容,则可能会忽略话题的有效演化,进而提高热点话题发现的漏报率,为解决该问题,提出了话题多中心模型。在话题多中心模型中,第一个话题中心称为初始中心,随着话题发展捕捉到的话题中心为延伸中心。基于上述理论,文献[115]最终给出了多中心话题的建立过程及基于多中心的热点话题发现算法。

基于多中心模型的热点话题发现算法如下:

输入:从网络中获取的报道信息;相似度阈值α;中心阈值β;新中心阈值γ。

输出:当前收集到的报道中的热点话题(表示为若干中心的集合)。

Step 1.将第一篇报道作为某一话题的初始中心;

Step 2.对后续收集到的报道E做如下处理:

Step 3.将E与当前所有中心进行相似度计算,得到值R;

Step 4.如果R>α,则将E并入该话题的属于某一中心的报道的集合;

Step 5.如果β<R<α,则将该报道作为该话题的另一个中心;(www.xing528.com)

Step 6.如果R<γ,则将该话题作为另一个话题的初始中心;

Step 7.等待下一篇报道,返回步骤2。

3.基于语义分析的迭代热点话题发现

文献[117]从影响力的角度度量话题的热度,首先给出单条微博的影响力,进而给出由多条微博组成的话题的影响力,并将其和语义信息结合,给出热点话题发现算法。

设某条微博b和该条微博的发布者u,将当前关注用户u的人数|ufollowed|视为微博b的直接影响力Infb,u,即:

上式给出的单条微博的影响力是一个不涉及时间的静态定义,随着时间的推移,用户对一条微博的关注会由于其他因素发生转移,故需要将时间因素的影响考虑进来,修订式(5-7),即在t时刻的单条微博影响力计算公式为:

t0为微博的发布时间,d为影响力衰减系数

给定一个时间段Δt,依据话题T和该话题在Δt时间段内新增的微博条数b1,b2,…,bn,话题T的影响力ΔInfT为:

话题T的热度HT为话题从开始的时间到当前的影响力变化之和,即:

式(5-10)将话题的热度抽象为话题包含的微博条目对于微博用户的影响力的变化,要完成热度计算,一个重要的环节是计算微博条目和话题的相似度。为了体现语义信息,文献[117]使用语义分析将文本中的概念空间分离出来,通过比较词语在概念空间中的向量特征,将词语聚集成若干个讨论集合,而这些集合中包含的语义信息的中心即为要识别的热点话题。

在热点话题的发现算法中,以概念向量的集合为输入,输出一个预先设定大小的集合,预设属性参数分别为:WordList(排好的词语列表)、WordVectors(词语向量集合)、BarrierFactor(一个用来停止对话题表示词语集合进行扩展的规模阈值)、MaxDistance(判断两个词语属于同一话题的最大距离限制)。热点话题发现的算法描述如下:

基于上述算法,文献[117]最终得到一个包含当前若干个影响力较大的话题集合,这个集合中的每个元素都是若干词语的集合,而这些词语的中心对应一个热点话题。对所有元素按照影响力排序,即可得到影响力最大的话题。

4.基于CHI热词选择的热点话题发现

一般情况下,突发热点话题的出现往往伴随着一定量的突发热词,突发热词直接体现了突发热点话题的核心内容,故依据突发热词实现突发热点话题的识别从理论上是可行的。据此,文献[114]依据CHI方法[118]提取话题发展过程中的突发热词,提出考虑动态突发性的热点话题发现方法。

词语突发性的量化可参考文献[119]提出的方法展开。对于每个词语w,可基于二项分布,构建出词语w和时间段i的相依表,如表5-2所示:

表5-2 词语w与时间段i的相依表

表5-2中的A表示时间段i内包含词语w的网络报道数,B表示时间段i之前包含词语w的网络报道数,C表示时间段i内不包含词语w的网络报道数,D表示时间段i之前不包含词语w的网络报道数。依式(5-11)给出了词语w在时间段i内突发值bi(w)计算方法:

计算完词语的突发值后,通过阈值比较选择时间段i的突发词,构成动态特征库。

通过分析突发性热点话题的特点,文献[114]将网络文本表示为如下向量形式(DB-VSM):

假设依据式(5-11)的计算,已经获得时间段i内的特征库Fi,wk∈d(1≤k≤m)且wk∈Fi,vk是特征wk权重,结合TF-IDF方法和式(5-11)给出的突发值计算方法,其计算方法如下所示:

其中,f(w,d)表示特征w在文本d中的出现次数,fi(wk)表示特征wk在时间段i内的出现次数,Ni表示时间段i内出现的网络文本总数,β为突发值的贡献度参数。经过上述处理后,通过融入突发性因子βbi(wk)可以提高突发性热词的权重,提高热点话题发现的准确率。

话题T由多个网络文本表示,即话题是文本的集合,表示为:

话题的核心向量通过式(5-13)的权重排序获得,最终话题T可表示为如下向量的形式:

wT'l(1≤l≤n)为话题T中的核心特征,vT'l为该特征的权重,计算方法如下所示:

式(5-13)和式(5-16)体现了双层特征选择(单个网络文本中的特征选择,由多个文本组成的话题的特征选择)得到动态特征库的思想,可以较好地体现网络文本的突发性,体现热点话题的典型特征。

基于上述思想,文献[114]结合FDBSCAN[120]方法,通过话题相似度和聚类实现对热点话题的发现和追踪。实现流程如图5-2所示。

上述关于热点话题发现的相关研究主要从话题的关注度、影响力、热词方向展开。上述研究虽然取得了一定的成果,但在考虑新闻话题的时序性时,均没有将时间信息量化。此外,虽然文献[114]从多维度对热点话题的特征进行了分析,但是忽略了新闻话题非常重要的一个特点——波动性。通过分析、观察热点话题的发展趋势图,可以发现热点话题的波动性和普通话题的波动性有明显区别:话题越热,其波动曲线的峰值则越高。

图5-2 突发热点话题的发现及追踪流程

综上所述,本章尝试从时序性和波动性入手,提出新的热点话题发现算法,创新点包括:①新闻话题的波动性和时序性量化;②提出融合时序性和波动性的热点话题发现算法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈