对新闻而言,其流行度是网络上多个站点对其认可程度的综合。对新闻站点而言,其流行度是其上发布的新闻的流行度所反向产生的。新闻和站点之间的流行度存在着相互增强的关系,即在排名较高的站点上发布的新闻,其流行度高的可能性较大;而发布高度流行新闻比较多的站点,其流行度排名也应该较高。新闻的流行度可以反映在两方面[2]:
(1)新闻流行度越高,越多的站点会同时报导该新闻,反之亦然。
(2)如果新闻在新闻首页上占据的视觉区域越重要,则该站点对该新闻的推介程度越高,反之亦然。
基于以上的讨论,我们已经对新闻站点的发布模式有所了解。下面将先介绍在前人工作中使用较多的新闻站点和新闻关系的基本模型,以及在其基础上提出的改进模型。
如图6-1所示,在给定的时间窗ω内,新闻发布的过程可以用一个无向图G=(V,E)来表示。其中顶点集V=S∪N,S代表新闻站点的顶点,而N代表时间窗ω内的新闻。同样,边的集合E也可以分为两个无交连集E1和E2。E1是连接顶点集S和N的无向边的集合,它代表了新闻发布和推介的关系,其上的权重代表了新闻站点对新闻的推介程度。E2是新闻顶点之间的无向边的集合,代表了相似新闻的聚类过程,其上的权重代表了新闻两两之间的相似度。S中的顶点完全覆盖了N中的顶点,即n∈N,s∈S,使得(s,n)∈E。这样,通过这个模型,我们可以得到新闻和新闻站点的排序。
图6-1 新闻站点与新闻排序模型(www.xing528.com)
由于网络上新闻站点发布新闻的模式是实时的将所有的新闻发布在新闻首页上,同时相似新闻实际上是在报导同一新闻事件,所以可以对上述模型进行如下改进。
如图6-2所示,将新闻发布的节点替换成为新闻首页,这样更符和实际情况,而且对新闻首页的排序比单纯的新闻站点排序更加合理。例如,假设新浪的“世界新闻”首页可能是所有站点中排名最高的,但是雅虎的财经类新闻比新浪的排名更高。通过对新闻首页的排序,可以得到每一类别中最热门的网站,同时也可以用来指导网站建设,以提高排名较低的栏目首页。
图6-2 新闻首页,新闻与新闻事件的三层排序模型
同时,由于每一篇新闻都是在报导某一新闻事件,内容相近的新闻实际上是在报导相同的新闻事件。在排序模型中引入事件节点,虚线代表着报导的关系。这样,在得到新闻排序的同时也将得到新闻事件的排序,这显然有着非常重要的语义价值和实用价值。
在排名较高的首页上发布的新闻,其流行度高的可能性较大;而发布流行度高的新闻比较多的首页,其流行度排名也应该较高。这样,基于单边增强的Pag-eRank[3]算法不适用于此问题。而由Cornell的J.Kleinberg提出的HITS算法[4]则可以比较好的解决这一问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。