本节针对的核心问题是从内容生成和内容呈现的角度,分析当前中国文化在国际社交媒体中的内容具有怎样的类型构成,并进而探讨不同类型的文化内容在国际社交媒体中具有怎样的呈现程度及特征。从定量研究的角度,结合文本挖掘手段和聚类等数据分析方法,对国际社交媒体中的中国文化内容的类型进行实践考察。在抓取所得到的文本资料的基础上,对每种媒体及其汇总的总文本进行共词聚类分析。每种媒体进入共词聚类的都是450个关键词,其中删除了China、Chinese、culture、中国这四个词。
对采集和汇总所得的文本进行分词和词频统计,得到不同的词202 634个。其中词频最高者为44 918次,词频大于或等于80次的词共7 964个,词频为1词的共有104 632个。根据Donohue 于1973 年提出的高频词和低频词的界分公式:计算要选取的高频词的临界值。[6]其中,I1是词频为1 的词的个数,T 为高频词中的最低词频数,也即区分选取高频词的临界值。本书中,I1=104 623,计算得出T≈456.9。将词频大于或等于457的高频词提取出来,得到高频词共1 771个。
从所得的高频词中,由于检索词的关系,在检索结果中,删掉China、culture以及Chinese、cultural、中国、文化这几个直接相关的词。事实上,本书中,china出现的频次是最高的,达44 918次;但有24 362条帖子的特征词中都包含它,其出现的分布广度也是最多的。特征词含Culture的帖子数量居第二,达19 805条,而其词频也很高,达29 357词。Chinese的词频及特征词帖子数分别为26 238和9 654。从这些也能看出,与检索词直接相关的这几个关键词,尽管出现频次很高,但区分度不大,因此可不采选至分析范围中。其后,从所得的高频词中,进一步清理掉一些意义不大的词,包括一部分副词、状语以及特点不明显的动词、形容词等,例如october、week、ago、past等。(www.xing528.com)
为了提高所选词的区分度,本研究以出现词频达到457次及以上的1 771个高频词,通过ROST CM软件对汇总后的文本进行特证词的提取与统计。每一行文本(对应于每一条帖子)所提取的特征词,都在这1 771个高频词的范围之内。由于一条帖子中的特征词不重复出现,因此词语在特征词表中的出现词频代表着它在所有帖子中分布的广泛度。若某词出现频次很高,但是其特征词的广布广度也很高,那并不一定代表它具有很好的语义区分度;在出现频次一定的情况下,若特征词的分布广度越低,也即在越少的帖子中出现,那么它就越具有高区分度。设某词在所有帖子汇总后的文本集中的出现频次为X,作为特征词出现的频次为Y,那么X/Y的值越大,这个词的区分意义就越高。
综合考虑词频以及词的区分度,为了选取既有尽可能高的出现频次、也有尽可能大的区分度的词,以词频以及X/Y这两个值作为等权的指标并进行无量纲化处理,对所得的1 771个高频词进行处理和排序,得到综合排序前450位的词。对这最终所得的450个词进行共词聚类分析,建立其450×450的共现矩阵,其中第i行、第j列的元素表示第i和第j的关键词的共现频次。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。