首页 理论教育 网络新闻影响力分析成果

网络新闻影响力分析成果

时间:2023-11-23 理论教育 版权反馈
【摘要】:新闻舆论监督的勃兴,肇始于美国大法官斯特瓦特创设的“第四权力理论”。所谓的“第四权力”就是指新闻舆论。同样,发布好的新闻网页会提升整个网站的影响力。图6-3 新闻影响力算法框架图3.新闻影响力定量分析算法实现新闻网页的判重及相关信息提取。新闻网页的重复,一般源于转载或对同一事件的不同报道,导致新闻文档的完全一致或者部分一致。

网络新闻影响力分析成果

1.分析方法概述

作为一种信息传播的方式,新闻会对社会稳定产生很大的影响。新闻舆论监督的勃兴,肇始于美国大法官斯特瓦特创设的“第四权力理论”。所谓的“第四权力”就是指新闻舆论。事实上,它不是国家权力,但随着新闻媒体在社会政治、经济、文化生活中的作用日益增强,它发挥着越来越重要的作用。同时,随着网络媒体“议程设置”功能的减弱和“沉默的螺旋”作用的不断增强,网络新闻作为网络舆论和社会舆论形成的主要源泉,准确判断它的影响力从而准确即时地把握社会舆论的动向变得尤为重要,因而确定新闻影响力对社会安全及其他相关方面具有重要意义[5]。例如在一个社会舆论出现之后,社会安全调控部门可以根据相关新闻的某些指标来判断这个论断的影响范围,从而做出对可能的突发事件的预先反应。而这个过程中使用的新闻的相关指标就可以用来判断新闻的影响力,如果有了一定的新闻影响力的计算模型,这个判断的过程会大大简化。所以,本文中提及的新闻的影响力可以理解为新闻所影响的人群、地域等范围的大小、对社会产生作用力的大小等因素的综合。

另外,可以利用新闻影响力来帮助新闻搜索引擎对新闻进行排序。虽然最近几年在新闻检索和新闻信息处理方面都在进行不断的努力,但是真正涉及网络新闻影响力排序的学术研究仍然很少。参考文献[6]和[7]是仅有的关于新闻排序的文章。参考文献[6]主要利用了新闻的时效性和新闻转载信息来对新闻进行排序。参考文献[7]则是利用了网页的布局和新闻转载信息对网页进行排序,因为涉及了新闻链接在网站首页中的位置信息,所以这种方法对单个网站中新闻之间的排序更加有效。这两篇文章利用的信息是新闻排序的主要信息,但是新闻网页中可以用来进行新闻排序的信息还不止这些,例如新闻的回复率,这是新闻影响力的一个很好的体现,但在这两篇文章中都没有提到。因而本章我们提出了一种对新闻影响力进行定量分析的算法模型。通过分析新闻影响力有关的因素,借助于信息检索中的预处理等相关技术,有针对性地从新闻网页中提取相关的信息,利用相关的算法有效地综合这些信息得到新闻的影响力值。

通常情况下对信息影响力的评价需要考虑信源可靠性、传播源可靠性、发布时间、信息内容的性质(领域)等几个要素。新闻作为信息的一个重要特例,对其进行影响力排序也应该考虑类似的要素。另外由于新闻有其特有的写作方式,并考虑到网络传播方式的特殊性,以及人们对网络新闻产生的感想也会通过一定的方式明确的显现在网络上,所以为了建立网络新闻影响力的计算模型,本文根据网络新闻的特性,首先对网络新闻影响力的几个要素进行分析。

(1)新闻网页质量与新闻信源网站质量之间互相影响的关系。好的网站发出的新闻往往具有比较高的质量,而且好网站的浏览人次一般都会比较多,因而它对社会产生的影响就比一般网站大。同样,发布好的新闻网页会提升整个网站的影响力。

(2)新闻传播速度和传播规模。传播速度快,而且传播范围广的新闻一般是比较受关注的新闻,会对社会舆论形成有比较大的贡献,网络新闻的传播主要是通过浏览和转载来完成的,即浏览人数越多说明新闻越重要,转载新闻的网站越多说明新闻越重要。而且,如果转载这则新闻的网站是新闻网站中质量比较高的网站,那么这则新闻就显得更加重要。但是浏览人数是在服务器端存储的,所以我们无法取得。因而我们判断新闻传播状态的时候主要是利用了新闻转载次数以及转载网站的质量。

(3)新闻的回复次数。浏览者对新闻发出了回复,说明他对新闻产生了反应,回复人数越多,说明新闻对越多的人产生了影响,那么这则新闻的影响力就相应变大了。

(4)新闻的发布时间。由于新闻具有时效性,因而一般认为最新发布的新闻要比以前发布的新闻更加重要,而且,新闻的回复次数和转载次数也与新闻发布的时间有很大关系。一般情况下,新发布的新闻的回复次数和转载次数在新闻发布的初期会比它之前发布的新闻低一些。

(5)新闻链接在新闻网站中所处的位置。如果是对单个网站中的新闻进行重要性排序,这点是很好的依据。因为按照习惯,每个网站会把当时比较重要的新闻的链接放在网页最显眼的地方,而且会加一些图片和文字的摘要说明或者采用比较特殊的字体。不重要的新闻则只是将链接罗列在相关新闻列表中。而且这些布局信息也反映了网站编辑人员对新闻排序的看法,对新闻网页的排序也有重要的指导意义。本文涉及的算法主要是针对任意网站任意新闻网页,所以暂不考虑这个因素。

从以上分析可以看出,对新闻影响力进行计算需要考虑新闻信源网站及其质量、新闻转载网站及其质量、新闻回复人次、新闻发布时间等几大要素。融合这些要素,本文提出了新闻影响力的计算模型,框架如式(6-1)所示:

NF=DtSt)×WS×(a×Trans+b×Rep) (6-1)

式中,NF为新闻影响力大小,DtSt)新闻发布时间参数,WS为新闻信源网站的影响力因子,Trans为新闻转载率,Rep为新闻回复率,ab为待定的系数因子,它们之间的关系为a+b=1且a>0,b>0,它们的取值决定了转载率因素和回复率因素在决定新闻影响力大小时所起的作用。式(6-1)计算模型中各项影响因素的计算,在下文中将给出详细陈述。

2.新闻影响力定量分析方法框架

依据式(6-1)的新闻影响力计算模型,本文的排序算法实现流程如图6-3所示。第一步,对新闻网页进行相似性判断,如果判断为转载或相似网页则提取网页转载或重复信息;第二步,用新闻转载网站之间的关系,利用HITS算法[4]对各转载网站进行了权威度计算,确定最终的信源网站和新闻转载率;第三步,对新闻网页进行信息提取,并利用提取的信息和上步中得到的重复信息进行回复率计算;第四步,利用中国互联网指数系统对新闻的信源网站的质量进行判定,并将其作为新闻影响力判断的一个整体的比例因子;第五步,考虑时间因素对新闻影响力的作用;第六步,根据以上步骤得到的信息进行综合计算得出新闻的影响力。

978-7-111-33166-7-Chapter06-3.jpg

图6-3 新闻影响力算法框架图

3.新闻影响力定量分析算法实现

(1)新闻网页的判重及相关信息提取。新闻网页的重复,一般源于转载或对同一事件的不同报道,导致新闻文档的完全一致或者部分一致。因而,新闻网页的判重需要进行两种方式的判别[8]

首先,对整篇文档进行MD5方法判重,如果文档完全一致,则直接确定网页之间的转载关系。如果文档并不完全一致,则进一步采用基于网页主体内容间的相似程度来判断它们是否为近似相同。

基于网页主体内容的判重,采用向量空间模型(VSM)表示网页主体内容,同时识别文章主体中的命名实体,因为命名实体最能体现新闻的特征,是新闻相似性判断的一个重要依据,此算法中需要识别的命名实体为人名、地名、机构名称和时间。当两个网页主体内容相似比例达到设定的阈值时,判别它们为近似相同,为重复网页。在计算过程中,网页Ui(i∈[1,n])使用特征向量进行表示,其关键词权值We采用以TF×IDF方法来确定,如果判定词项为命名实体,权值适当加强。具体定义如下:

978-7-111-33166-7-Chapter06-4.jpg

式中,α为加权因子,本文实验中取值为5。

最后选取m个权值较大的词项生成网页特征向量,以两个网页特征向量中共现词项数量为相似性判据,如果共现个数大于阈值,则两个网页为相似网页。

确定转载或近似关系之后,提取并记录相关的信息,需要记录的主要信息有:转载网站、转载网站的信源网站、转载网站中的回复次数以及新闻发布时间。此处的转载网站和信源网站只是对转载关系的一种记录,并非最后确定的真正的信源网站和转载网站。最后的信源网站在下一步中确定。

(2)新闻转载关系判断及新闻信源网站权威度计算。通常:

新闻转载率(记为Trans)=转载次数/源网站点击次数 (6-3)

然而,由于网络新闻的转载关系存在直接转载和间接转载两种,使得源网站一开始不能确定,而且源网站的点击次数保存在服务器端,网页中一般不提供,所以很难得到。由于新闻网页与其源网站之间存在互相增强的反馈关系,应用HITS算法原理,本文把网站作为节点,网站拥有内容质量(权威)属性Author-ity和转载属性Hub,应用迭代算法计算如下:

每个网站pt有内容质量属性值A0pt)和转载属性值A1pt)。首先在网络整体层次上将所有节点的这两个属性值初始化为1,然后用ptqt描述网站pt转载了网站qt的新闻,用下面的迭代公式计算内容质量属性值和转载属性值,每次迭代完成后将所有网页的属性值正则化为1。

978-7-111-33166-7-Chapter06-5.jpg

按以上公式迭代更新每个节点的属性A0pt),A1pt)。

利用上节中提取到的转载信息,首先提取新闻转载网站之间的关系,包括直接转载和间接转载关系,计算各个转载网站的权威度值,最终把被转载(类似于普通网页的入链)次数最多的那个网站作为源网站,把它的权威度值作为新闻的转载率值。(www.xing528.com)

3.新闻源网站影响力因子(Ws)确定

对新闻网站质量的评价来自人们对这个网站的关心程度,浏览这个网站的人数多了,自然可以认为这个网站的质量比较高,它提供的新闻就比较有价值。因而新闻源网站的质量好坏程度,也是对网络新闻影响力进行判断的一个重要依据。

中国互联网实验室与国家统计局联合发布了中国互联网指数系统[9](China Internet Index System,CIIS)对网站进行评估。CIIS利用Alexa.com作为第三方监测机构,依托各监测网站的人气指数,将提供中文服务的网站按照所处行业、地域、提供服务等进行划分,并由此进一步揭示出中国互联网行业的行业发展及区域发展特征。

中国互联网指数系统中的人气指数是以Alexa.com的数据为基础进行计算,选取各个行业排名靠前的网站为成分网站,对其访问量(IP值)及人均页面访问数(PV)进行加权计算得出平均值,其他网站与此值相比,得到各自的人气指数值。本文利用的正是新闻源网站人气指数(CIIS值),再把此指数归一化作为新闻信源网站的质量评估值,即新闻影响力因子Ws,也就是新闻影响力评估的一个整体参数。

4.新闻回复率计算

回复率(记为Rep)直接体现了人们对网络新闻产生的反应。通常:

回复率=回复次数/点击次数 (6-8)

通过观察发现,大部分新闻网页只是提供了回复人次,而没有提供点击/浏览人次,而且网页中点击/浏览次数是在网页服务器端存储的,通过简单的抓取和信息抽取很难得到。在大量观察的基础上,根据新闻回复次数的相对数量总结了一个回复率比值,把这个比值作为新闻的回复率。此处,回复次数是源网站回复次数和转载网站回复次数的总和。新闻回复次数分布如图6-4所示。

从上图我们可以得出:大多新闻的回复次数是在1000人次以内的。极少数是在3000人次以上。根据上图统计规律得出下面的相对回复率比值。举例说明:其中回复次数(0~200)表示对本条新闻发出回复的人数范围,相对回复率比值表示在发出回复人数为(0~200)之间时,我们可以认为对本条新闻发出回复的人数占浏览人数的20%。如果回复人数超过了5000,表示浏览过本条新闻的人基本上都发出了回复,所以相对回复率为100%(见表6-1)。

978-7-111-33166-7-Chapter06-6.jpg

图6-4 回复人次统计

表6-1 相对回复率列表

978-7-111-33166-7-Chapter06-7.jpg

978-7-111-33166-7-Chapter06-8.jpg

图6-5 新闻关注度

5.时间要素对新闻排序的影响

人们对新闻的关注程度变化趋势一般为两种,如图6-5所示。此处关注程度用单位时间内浏览新闻的人次来衡量。第一种是缓慢增长型,例如对国家政策类新闻等知识类的关注度。这些类别的新闻的时效性不强,人们对它们的关注度是随着时间的推移缓慢增长的。另外一种则是快速增长下降型。主要是针对时事类的新闻,这类新闻的时效性很强,人们对这类新闻的关注度在短时间内快速增长,经过一段时间之后,关注度快速下降。因而在对新闻排序时一定要首先进行类别判断,然后考虑时间要素产生的影响。从这方面看,新闻重要性与发布时间成反比关系。

另外,发布时间越长,被转载和被回复的几率越大,回复次数和转载次数越多。如果不考虑时间因素对新发布的新闻是不公平的。所以必须选定一个参数作为时间因素对新闻重要性产生影响的平衡。对发布时间长的新闻在回复次数和转载次数做一些削减。总结以上两点并结合参考文献[4]中对新闻衰退时间参数的定义,我们定义时间参数定义如下:

DtSt)=e-αt-tS) (6-9)

其中,tS为新闻的发布时间,并且有ttSα的确定取决于新闻它所属于新闻类别的衰退时间,衰退时间指新闻从发布到无人关注中间经历的时间,此处定义α与新闻衰退时间之间的关系为

978-7-111-33166-7-Chapter06-9.jpg

式中,β为时事类新闻衰退时间,γ为非时事类新闻衰退时间。

6.新闻影响力判断

通过以上步骤,我们可以得到如下的数据:新闻转载率(Trans),新闻回复率(Rep),新闻信源网站的影响力因子(Ws)以及新闻发布时间参数DtSt)。

我们认为对新闻进行转载和回复即为人对新闻的认可,所以把网络新闻认可率(记为Rec)定义为

新闻认可率=a×转载率+b×回复率 (6-11)

为了保证认可率为小于1的数值,其中的ab的关系我们定义为a+b=1;因为没有合适的语料库,无法通过训练方法得到ab的值,所以它们的确定借助于80/20法则而得到。此处理解为浏览新闻的人也许很多,但是做出回复的人是极少的,而做出转载行为更加少。所以我们认为转载率更能体现新闻的影响力。实验证明这种定义方法是可行的。

最后综合以上信息,定义新闻的影响力(NF)如下:

978-7-111-33166-7-Chapter06-10.jpg

其中,a=0.8,b=0.2。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈