为了研究长尾理论,根据“二八定律”,前20%为热门关键词,剩下的80%为长尾关键词。笔者将表5-28“DICT模块输出表”、表5-29“DC模块输出表”和表5-30“RC模块输出表”按照词频进行降序排序,发现排名第一的关键词均为“网络舆情”。表5-28中“网络舆情”出现59次,排名第二的关键词“舆情”仅出现7次,排名第一的关键词出现的次数是排名第二的关键词的8.43倍。表5-29中“网络舆情”出现70018次,排名第二的关键词“舆情”仅出现9328次,排名第一的关键词出现的次数是排名第二的关键词的7.5倍。表5-30中“网络舆情”出现1643次,排名第二的关键词“舆情”仅出现273次,排名第一的关键词出现的次数是排名第二的关键词的6倍。由于“网络舆情”和其他关键词有数量级差异,因此视作噪音,从结果集中删除,不作为研究对象。因此,以下所有数据可视化中均不包含“网络舆情”关键词。剩下的数据中,表5-28、表5-29、表5-30分别含有292个关键词。
对表5-28的数据进行绘制,数据分布关系记为R1,结果如图5-65所示。
图5-65 DICT模块输出关系图R1
为了分析作者在文献中定义的热词,进行分组统计,结果见表5-31。
表5-31 DICT模块分组统计表
表5-31说明,对于研究的96篇文献,大部分作者在文章元数据中定义的关键词不重叠,数据分布点较为孤立和扁平,不存在长尾效应。如采用严格的关键词精确匹配搜索,则搜索到大于1篇文献的占比为14.73%。但是,发现引用次数大于3的关键词只有6个,这6个关键词是热门关键词,分别是“舆情”“舆情传播”“微博”“突发事件”“系统动力学”“微博舆情”。
表5-31“DICT模块分组统计表”的搜索场景主要来自笔者基于自身文献内容定义的关键词搜索。基于同样的分析模式,对表5-29的数据进行绘制,数据分布关系记为R2,结果如图5-66所示。
图5-66 DC模块输出图R2
将图5-65和图5-66对比可以发现,从用户下载量来说,最高下载量为9328次,最低下载量为0次,以1000为单位分组进行数据修正,以进行分组统计,结果见表5-32。
表5-32 DC模块分组统计表(www.xing528.com)
对表5-32的数据进行绘制,结果如图5-67所示。
图5-67 DC模块分组统计输出图
将图5-67和图5-66对比,发现图5-67的斜率比图5-66大,数据分布不如图5-66扁平,也说明图5-67存在长尾效应,从文章下载量分布而言,存在关键词带来的文献下载量的分层现象。对下载量不大于1000次的数据进行分析,发现关键词对应的下载量小于500次的为85个关键词。关键词对应的下载量介于500~1000次的为100个关键词,该区间关键词最多。关键词对应的文献下载量主要分布在2000次以下。但是从图5-67中也可以看到文献下载量为2000次以上的文献,关键词约37个,这37个关键词即搜索的热词。其中大于5000次下载量的关键词为“微博”“舆情传播”“指标体系”“舆情分析”“意见挖掘”“突发事件”“模式识别”。
对表5-30“RC模块输出表”进行绘制,数据分布关系记为R3,结果如图5-68所示。
图5-68 RC模块输出图R3
从图5-68中可以发现,被引次数最高是273次,最低是0次,对图5-68的数据进行分组统计,结果如图5-69所示。
图5-69 RC模块分组统计输出图
图5-69的纵轴代表被引次数,横轴代表CNKI数据集中该被引次数的关键词次数。从图5-69中可以发现,关键词和被引次数不构成长尾效应,而是在不同的区间存在分组聚类现象,例如,被引次数为25的有11个关键词,被引次数为10的有12个关键词,这两个簇的规模大小相差不大。
对比DICT模块、DC模块和RC模块,进一步可以发现,基于作者撰写文献角度,关键词分布较为扁平,长尾效应不明显。从下载量角度(DC)来看,存在长尾效应,因而有长尾关键词。从文献被引角度(RC)来看,存在分组聚类现象,主要的关键词分布在被引用分布中被引次数7~14次区间,或者24~30次区间。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。