用户漂移、行为漂移以及系统漂移使利用大数据资源研究长期趋势变得困难。
许多大数据资源的一大优点是,它们搜集的是一段时间内的数据。社会科学家把这种一段时间内的数据称为纵向数据。这种数据对研究变化当然是非常重要的。但是,要想准确地测量变化,就必须保证测量系统的稳定性。引用社会学家奥蒂斯·达德利·邓肯(Otis Dudley Duncan)的话就是:“你如果想测量变化,就不要改变测量过程。”(Fischer 2011)
遗憾的是,许多大数据系统,尤其是商业系统,都处于持续变化中。我将这一过程称为“漂移”。具体而言,这些系统主要从三个方面发生变化:用户漂移(使用系统的人的变化)、行为漂移(人们使用系统的方式的变化)以及系统漂移(系统本身的变化)。这三种漂移意味着某一大数据资源中的模式既可能是由世界上的一个重要变化所引起的,也可能是由某种形式的漂移所引起的。
第一种漂移是用户漂移,由使用系统的用户的变化所引起,这些变化既可能是短期内发生的也可能是长期内发生的。例如,在2012年美国总统大选期间,由女性所写的有关政治的推文,比例每天都在波动(Diaz et al.2016)。因此,有时推特上推文的基调有所变化,实际上可能只是因为当时发推文的用户改变了而已。除了这些短期的波动以外,从长期来看,某些人群还呈现出选用或弃用推特的趋势。
除了使用系统的用户发生变化以外,使用系统的方式也会变化,我称之为行为漂移。例如,在2013年土耳其的盖齐公园示威活动期间,随着示威的演变,示威者改变了对标签的使用。以下是泽奈普·图费克奇(Zeynep Tufekci)对这一行为漂移的描述,她之所以会得出这些发现,是因为她当时在推特和现实中观察了人们的行为:(www.xing528.com)
事情的经过是,当示威变成热门话题时,很多人就停止使用旨在让人们关注某一新现象的标签了。随着示威的持续,甚至愈演愈烈,有关这一话题的标签就逐渐消失了。我采访人们,得出的两个原因是:首先,推特是限制推文字符数的,所以一旦每个人都知道某个话题了,标签就变得多余了;其次,标签被认为只有在吸引人们关注某一话题时有用,而对于讨论某一话题则没用。
因此,这一行为漂移会让一些研究人员对当时所发生的事情形成扭曲的认识,他们通过分析为示威活动相关内容加标签的推文来研究这次活动。例如,他们可能会认为有关示威的讨论减少了,但实际上,很长一段时间之后,讨论才减少。
第三种漂移是系统漂移。在这一情况下,是系统本身,而非用户或用户的行为发生了改变。例如,随着时间的推移,脸谱网增加了对状态更新的字数限制。这一系统变化影响了人们所发的状态,进而影响所有针对脸谱网状态更新的纵向研究。系统漂移与算法干扰紧密相连,我将在2.3.8小节中对算法干扰进行介绍。
综上所述,许多大数据资源都存在漂移现象,因为使用它们的用户在变,使用方式在变,系统本身也在变。这些变化有时能成为非常有趣的研究问题,但也让使用大数据资源追踪长期变化变得更加复杂。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。