中国文化在国际社交媒体的有效传播中,传受关系并不是发散和非对称的,而是具有传者和受众之间的层级对称性,形成一种趋同和趋近的“话语流动圈”。这种话语层级并非指向实体性或线下性的社会因素,而是基于线上性和准虚拟化的话语特征,包括其线上的活跃度、互动性、影响力等层面。更具体地说,传者在网络社交媒体中的话语层级,与其吸引什么样的话语层级的受众密切相关;同时,受众也更倾向于对与自己线上活跃度、互动性、影响力相近层级的传者进行信息反馈和传播反馈,形成有效传播通路。
本节的假设可提炼为以下表述:中国文化在国际社交媒体的有效信息流动中,受众最有可能对和自己的话语层级相近的传者进行反馈,传者得到的反馈最有可能来自和自己的话语层级相近的受众。其中,“有效流动”的界定是,传者在社交媒体发出的信息(或帖子)得到受众的反馈;“反馈”的界定是,受众对传者发出的信息(或帖子)进行了评论、点赞、转发等行为。之所以把“话语圈层”限定在信息“有效流动”的研究范围内,是因为帖子若仅仅被发布而不被浏览、或仅被浏览而并未产生反馈与作用,那我们无从判断这样的帖子达成了有效的信息传播,也难以判断信息的受众是否为有效受众。
本节的研究设计是:对Twitter、 Google+、 YouTube、 Flickr四种媒体,抽取一年内关于中国文化的样本帖子。考察这些帖子的传者和受者之间,分别在社交媒体上的发声活跃度(后文简称活跃度)、社交互动性(后文简称互动性)、传播影响力(后文简称影响力)方面,有没有相近性与相关性,以及有怎样的关联结构。基于信息的有效流动和有效传播,本书不把仅仅点击或浏览帖子的受众作为有效受众,而是把有效受众的范围界定为对帖子做出实际反馈行为的受众,例如对帖子进行点赞、收藏,或是转发、评论。
其中的关键概念分别界定如下:①话语层级。本书从社交媒体的线上活跃度、互动性、影响力考察用户的话语层级。活跃度指用户在社交媒体中进行帖子生产、内容发布的活跃程度,例如发推文的数量;互动性指用户通过社交媒体与他人进行类社会互动的程度,例如关注他人的数量、追踪他人帖子的数量;影响力指用户在社交媒体中的话语地位和影响效果,例如关注者数量、得到的推荐语数量所反映的。②话语等级。对上述话语层级的具体数值,由于它们是连续性的,将其转换为离散的等级序数,便于进行分析。转换方法是采取对数函数,将话语转换为若干等级,得到的等级范围最小值为1,最高值依据媒体的不同在10~15之间。③有效受众。对帖子的受众,不考虑那些仅观看而不做任何表示与反馈的受众,而考虑对帖子做出了评论、收藏、转发、点赞等有效反馈的受众。
四种媒体的“有效受众”,其界定和选取标准如下:①Twitter:对帖子做出转推或评论的受众;②YouTube:对帖子做出评论的受众;③Google+:对帖子做出评论或点赞的受众;④Flickr:对帖子做出评论的受众。这些有效受众的信息和账户网址,都可以依据四种媒体的不同,通过其评论区或反馈区,而便利地获取到。
需说明的是,由于社交媒体的类型的不同,我们对不同媒体所采取的话语指标是不同的。但这并不妨碍这些指标反映着传者或受众的话语特征,也不妨碍对单独一种媒体的分析的自洽性。因为本文的分析并不是对不同媒体中的话语进行横向比较,而只是分析文章的假设效应在这些媒体中是否单独各自成立。
对于传受关系中“话语圈层”效应的判定和检验,主要通过以下方式,涉及pearson相关系数、kendall秩相关系数、spearman等级相关系数等。(1)受-传关联性。对于话语等级为m的受众群,它可能来自各个等级的传者。本研究将考察它在哪个话语等级的传者中占的比例最高,将这个拥有m等级受众的比例最高的传者等级记为n。最后计算每个等级的受众(m1, m2, m3, …, mmax),和该等级受众分别对应的传者话语等级n(n1, n2, n3, …, nmax)之间的相关系数。理论上,若存在话语的同层级结构,则每个m和对应的n值应是相等或相近的,一个值大另一个值也应随之大,一个值小另一个值也相应小,也即两者应具有显著的相关性。(2)传-受关联性。对于话语等级n的传者,它可能拥有分布于各个等级的受众,n等级的传者拥有的每个等级的受众所占比例记为mn。1, mn。2, mn。3, …, mn。max;对于每个等级的受众,在全部受众的总体中所占比例记为m1, m2, m3, …, mmax;则得到n等级的传者拥有的每个等级的受众的“相对比例”为(某等级的受众在n等级传者的受众中所占比例-该等级受众在全体受众中所占比例),也即:mn。1-m1, mn。2-m2, mn。3-m3, …, mn。max-mmax。这种“相对比例”有效地屏除了受众全体的分布结构对于特定等级的传者所拥有的受众的分布结构的影响。随后,考察n等级的传者拥有的相对比例最高的受众等级,标为m。最后计算每个传者等级n和它对应的m值之间的相关系数。理论上,若存在话语的同层级结构,则每个m和对应的n值应是相等或相近的,一个值大另一个值也应随之大,一个值小另一个值也相应小,也即两者应具有显著的相关性。
对四种媒体各抽取一年之内的帖子样本用于分析。本研究采取专门主题的抽样,每种媒体都以“China”和“culture”为复合关键词,针对某个专题领域爬取帖子样本。各媒体的数据抓取过程分别如下:
1. Twitter(https://www.xing528.com)
采集和过滤得到2014年10月11日到2015年10月10日的帖子共13 471条,这些帖子在12个月中随机分布。从中剔除转推数和收藏数都为0的帖子,剩下3 850条。对这3 850帖子采集它们的转推者和收藏者。由于有些受众账号已被冻结,因此并非所有帖子的受众都能成功采集。成功采集的有:转推者9 867条,去重后6 391条,成功采集其中6 383个受众的具体信息;收藏者9 649条,去除重复后5 836条,成功采集5 829个受众的具体信息和影响力数据。其中存在着无效数据、重复数据或已过期无法采集的数据,最后得到10 961个不同的受众。将数据表导入到sql server中,并对数据表进行连接,每一行数据中包含一条帖子的传者资料及其一个受众资料,共得到这样的行13 205条。
2. YouTube
在YouTube首页对组合关键词搜索得到的内容,每隔两周采样一次,抓取2014年11月16日至2015年11月15日之间上传的YouTube视频帖子,去除重复帖之后,剩下的样本2 486条。这些帖子样本的评论数量分异很大,有必要避免少数过热帖子对总体受众结构比例的过大的偏倚影响。因此对于所有帖子,若帖子的评论数量大于240条,则仅取前240条评论。最后得到16 547条评论及其评论者。这16 547条评论,由15 521个不同的评论者所发。评论者信息由于存在账户冻结、账户异常等情况,这15 521个不同的评论者中,实际成功采集15 510个评论者的影响力数据。将YouTube中采集得到的16 547条评论及其15 521个不同的评论者数据导入sql server中,并对数据表进行连接,每一行数据中包含一条帖子的传者资料及其一个受众资料,共得到这样的行16 522条。受者资料中,页面被观看次数若为null则表示无人观看,这一般是账号新注册,尚未上传视频。根据传者、受者的被订阅数、页面被观看次数进行传受之间话语关系的关系,这两个指标都显示着用户在YouTube平台中的影响力状况。
3. Google+
在Google+首页组合关键词搜索,得到按时间更新顺序的帖子。采集的是2014年10月21日到2015年10月20日按时间更新排序全部帖子,共得4 947条。对这4 947条帖子,爬取做了评论、点赞的所有有效受众的信息。由于很多帖子反响冷清,没有任何受众对其评论或点赞。因此实际取得472条帖子的共7 668个为帖子评论或点赞的受众。这7 668个受众去除重复后为5 783个,从中剔除无效账户或异常账户,实际采得5 780个不同受众的影响力数据。将数据表导入到sql server中,并对数据表进行连接,每一行数据中包含一条帖子的传者资料及其一个受众资料,共得到这样的行7 318条。受者资料中,页面被观看次数若为null则表示无人观看,这一般是账号新注册,尚未上传视频。
4. Flickr
在Flickr首页根据组合关键词搜索得到,每两周采样一次。Flickr采集的是2014年11月4日到2015年11月3日按时间更新排序的照片帖子,共得16 692条,其中819条有评论,其他绝大多数的照片帖子的评论数为0。由于每个照片贴的评论区中,评论数量差异很大,多数帖子没有评论或仅有少数评论,而少数帖子的评论则成千上万条。为了避免这少数帖子对整体数据比例的过大影响和样本参数的偏倚,采取弱化异常值的做法,每条帖子若评论数大于220条则只取前220条评论。最后采集得到各照片贴的评论9 018条,它们由3 673个不同的评论者所发。实际采得3 665个评论者的个人资料,其他几个由于账户关闭等原因未成功抓取。将数据表导入sql server中,并对数据表进行连接,每一行数据中包含一条帖子的传者资料及其一个受众资料,共得到这样的行8 895条。
对于传者及其受众的数据资料,进行清洗和标准化的处理、转换。获取得到的帖子、传者、受者的资料,传入到SQL SERVER数据库中进行连接操作。其中涉及的所有影响力数值如关注者数、页面被观看总次数等,通常都数值跨度很大。除个别特例和特别说明外,本文都以取对数值的方法将其转为小跨度的等级数处理。具体处理方法为:设原值为x,转换后的值为y,则y=int(log(x)*2)+1,其中int是取整函数,也即取不大于该值的最大整数,如2.511取值为2;log是取以10为底的对数;原值x为0的,若无特别说明,则转换后的值取为1。转换公式为y=int(log(x)*2)+1的数值范围对应关系为:[1-101/2),转换后为1;[101/2, 10),转换后为2;[10, 103/2),转换后为3; [103/2, 100),转换后为4;[100, 105/2),转换后为5;[105/2, 1 000),转换后为6;……以此类推。也即,每个转换后的数字编码n对应的范围为:下界为10(n-1)/2,且包含该下界值;上界为10n/2,且不包含该上界值。转换后的等级数,基本都在1至20的整数区间范围内。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
