本章通过高频词特征分析、共词结构与语义网络、共词聚类、内容分析等方法,运用网络采集、文本挖掘、社会网络分析等手段和工具,来探讨中国文化在国际社交媒体传播中的主要热词特征及其语义网络、文化构成和内容主题类型。
1. 媒体来源
本书选取七种重要而特点不同的社交媒体,分别是Twitter、YouTube、Facebook、Google+、Tumblr、Flickr、Reddit。它们都具有很大的规模与流量,在其专门的细分领域内也有重大的影响力和竞争力。在2015年2月21日的Alexa全球网站排名数据中,Facebook、YouTube、Twitter三大社交媒体巨头分别居于全球网站的第2、3、8位,其他媒体也都具有全球数十位或一百多位的排名。
2. 样本采集与汇总
对这其中媒体中的内容,都以“China”和“culture”为复合关键词进行帖子的检索,通过“八爪鱼”爬取软件自动抓取、存档内容。Google+采集的帖子,发布时间为2014年10月21日至2015年10月20日,得到4 947条,删除内容完全重复的帖子后,剩余2 673条。Twitter采集的内容,其发布时间为2014年10月11日到2015年10月10日,抽样采集得到13 471条,删除重复内容后剩下11 141条。YouTube的帖子,其发布时间为2014年11月16日到2015年11月15日的帖子,抽样得到2 486条,删除标题及正文都重复的帖子后剩下2 329条。Tumblr的帖子每晚23点自动采集20条,采集的帖子发布的时间段为2014年11月1日至2015年10月31日,抽样采集得到3 103条,去除标题和正文都重复的帖子后剩2 796 条。Flickr采集的是2014年11月4日到2015年11月3日按时间更新排序的照片,共得到16 692条,删除标题和正文都重复的内容及空白内容后剩余10 490 条。Reddit采集的是发布于2014年11月1日至2015年10月31日的所有帖子2 485 条,删除标题与正文都重复的内容后得到2 442条。Facebook采集的是2015年6月14日到2015年11月15日之间,名为“China culture”或“Chinese culture”的三个大规模群组的所有帖子[1],得到5 246条,经删除重复及空白的内容后剩3 059条。(www.xing528.com)
分析的内容是这些帖子的标题、正文、标签的文字部分。若无标题或标签,则不予分析。其中,YouTube分析的内容包括标题和正文;Tumblr分析的为标题和正文、标签词;Flikcr分析的是照片的标题及其说明的正文;Reddit分析的是标题和内容正文;Facebook分析的是帖子正文的内容,如是转贴则还包括被转内容显示的正文。上述所有内容汇总到一个txt文件中进行处理。该txt文件的每一行为一条帖子的内容。汇总后的txt文件大小为49.3MB,总字符数为5 117.88万。
3. 文本预处理
对于采集所得的文本集进行清洗。去除#号、@号、http开头的网址字符串等无实际语义的字词;去除无意义的字符串,例如cts等;去除帖子在网页的显示中本身所含的格式词,例如“转推了”“查看翻译”等词;去除一些在语义分析过程中无明显语义的虚词、助词、连词等。对于最终的文本,通过ROST CM软件进行中英文的分词、词频统计以及共词分析、语义网络的分析呈现,并结合SPSS软件和VBA编程进行定量处理。通过VBA对统计所得的高频词及其共词网络、共现词频进行整理和转换,通过SPSS对所采选的关键词进行聚类分析。最终,将文本集中高频出现和具有区分度的450个关键词,通过其相互间的共现程度得到聚类结果,从而将中国文化内容进行类型的划分。在此基础上,进一步结合不同的类所含关键词与其他类的关联强度,考察各个类在中国文化的国际社交媒体呈现中所具有的地位和作用差异。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。