随着以上关于如何通过社会化媒体平台来理解、监测甚至预测公众舆情研究的开展,围绕此类研究中所存在问题的讨论从未间断。首先是存在的抽样偏差问题,而此问题往往被忽略,因为现有的研究大多只是简单地应用机器学习和数据挖掘算法,对社会化媒体用户群体缺乏足够的了解。研究者需要时刻谨记的是,社会化媒体的用户并不等于整体人群。基于此,有学者着手研究类似脸书和聚友网、推特等社会化媒体用户群体的人口统计学特征。比如,Mislove等人开发了一项技术,用以从居住区域、性别和种族三个维度,对推特用户与美国全国人口进行比较。结果表明,推特用户群体的特征与全国人口特征存在较大差异,具体表现为推特用户主要为男性、居住在人口稠密区域,而且在种族的分布上也表现出了高度的非随机性。
同样地,在一项对2008年美国总统大选有关的推特数据的研究中,Gayo-Avello发现该数据中的用户多数为倾向于支持奥巴马的年轻人,而非有代表性的群体。在讨论此问题时,研究者将此与1936年美国《文学文摘》(Literary Digest)杂志的总统大选调查相提并论。该杂志根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄一千万份问卷调查表以调查公众的选举意愿,但由于所选样本本质上为当时美国的富人群体,而不是有代表性的全国性样本,最终导致其未能准确预测公众偏好和大选结果。相反,盖洛普仅凭3000份具有全国代表性的问卷,便准确预测了当年总统大选的结果。
此外,也有学者提出,社会化媒体时代的社会与文化情境发生了剧烈变化,因此与此相关的研究也需做出调整。
盖洛普范式主要形成于20世纪的大众社会阶段,旨在通过对选取的有代表性样本进行研究,以发现全体人口的意愿,并将整体的相对确定的偏好传达给统治阶级。而社交媒体时代的研究,由于很难实现与之相同程度的代表性,因此需要截然不同的思路。社交媒体在其广泛的人口覆盖以及收集实时信息方面表现出无可比拟的优势,因此可以说非常适合用于对更加浮躁和原子化的后现代社会的研究。
Anstead et al.
除了样本的代表性问题之外,基于社交媒体的公众舆情研究还存在着验证性的问题。近期一篇基于社交媒体文本的研究中,研究者致力于比较两种不同的文本大数据分析方法的差异,一种为广泛应用于社会科学领域的基于词典的分析方法(dictionary-based analysis),另一种为计算机科学和工程领域中最常用的无监督主题模型(unsupervised topic modeling)。研究者分别采用上述两种方法,对2012年美国总统大选期间发布于推特平台与选举相关的七千七百万条相关推文进行分析,比较不同方法所揭示的对奥巴马和罗姆尼的讨论话题的定性结构和比例,以比较两种方法的有效性。研究结果表明,这两种方法都有一些有价值的结果,但是基于无监督主题模型(此研究主要采用LDA)的分析在几个方面都比基于字典的方法有更好的表现。然而,作者也发现,两种方法均产生了显著的错误,其中基于LDA的方法产生更多的假阳性,而基于字典的方法则产生更多的假阴性。由此,研究者建议在使用以上两种方法进行社交媒体文本研究时,可以考虑将两种方法结合起来用,以降低错误发生的概率。
更进一步,Guo等人提出,较之于计算机等领域的研究,传播学研究中类似主题的研究存在着“黑匣子”(black box)方法。他们指出,传播学学者虽然会提及所使用的程序或者工具,但其文章中仍欠缺对研究过程与方法更为详细的阐述,而这种缺乏透明度的方法将不利于确保结果的有效性。(www.xing528.com)
结语
社交媒体的飞速发展及其在社会政治生活中重要性的提升,引发了各界对基于社交媒体公众舆情的讨论与研究。在此背景下,本章主要关注国外研究者们对于此领域的探索与研究成果。国外学者更为关注公众使用最为广泛的社交媒体平台,如脸书、推特等,而且尤为关注社交媒体公众舆情与经济和政治领域之间的关联,一方面试图揭示重大政治与社会事件中公众舆情的导向与话题的转换机制,另一方面则是从长远来说尝试基于现有研究来预测重要类似事件的发生,比如基于推特公众情绪以预测股价变动,或者公众是否走上街头进行游行抗议,等等。
然而,在抓住社交媒体发展机遇,充分了解公众舆情的同时,需时刻谨记基于社交媒体进行舆情分析在方法层面所存在的不足之处。在我国,虽然社交媒体已得到较为广泛的应用,但类似微博等平台的用户主要为城市用户,因此基于微博平台的舆情分析需认识到平台用户的代表性问题,切记以偏概全。此外,在研究方法与工具的选择上,需根据选题需要,考虑不同模型与工具的适用性问题,以选择最为适合的工具与方法。
【注释】
[1]项目的详细信息,请见https://mislove.org/twittermood/。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。