2011年8月,英国伦敦发生骚乱,持续五天的骚乱震惊了世界,英国《卫报》数据博客对骚乱的报道也震撼了新闻界。
骚乱起因于警察击毙了一名29岁的黑人男青年,这位名为马克·达根(Mark Duggan)的青年被怀疑非法持有枪械。2011年8月6日,他的家人到警局门口举行和平抗议活动,要求警方公布执法详情。随后抗议升级为大规模骚乱,骚乱从伦敦北部街区扩散至整个伦敦,接着蔓延至曼彻斯特、利物浦等地。骚乱中,有2278家商店被破坏或洗劫,共发生了5112起与骚乱相关的犯罪事件,超过4000人被捕。[1]
各媒体实时跟进报道了骚乱进展。按照传统的新闻操作方式,媒体一方面会派记者前往现场,借由“在场”彰显报道的客观性;另一方面,也会采访官方发言人,由此强调报道的权威性。《卫报》数据博客在推出实时报道的同时,独辟蹊径,通过数据新闻,展现出了与官方话语迥异的另外一番图景。
骚乱在蔓延,而官方无法提供骚乱发生地点的完整信息,于是《卫报》数据博客栏目推出了骚乱地图报道,在谷歌地图上标注已知的骚乱发生地点,并提供现场详情报道,同时邀请读者查缺补漏。读者可以上传骚乱信息,还可以校正骚乱地图中的错误,所有的数据都可以自行下载。骚乱发生第2天,数据博客又推出了在线问卷,请读者选填骚乱的原因。
骚乱逐渐平息后,1984人接受了法庭审讯,法庭审讯记录里包含了全部18岁以上嫌疑人的身份信息、家庭住址、涉及罪名等,法庭记者很快拿到了庭审记录摘要。但跑口记者只关心那些特殊、典型的案例,而数据博客却更想知道全部信息:受审者是谁?他们从哪里来?为什么参与其中?于是数据博客向法院提起信息公开申请,并在几经周折后终于拿到了以PDF格式存储的开庭记录。这种格式的文档无法直接分析,经过人工转录,数据博客最终自制了一份含有一千多条庭审记录的数据库。数据博客,对数据库进行数据分析后发现,法庭倾向于重判参加骚乱的犯罪嫌疑人,他们的刑期比其他类似罪行的人刑期平均长了四分之一,[2]而这些都是仅靠采访无法获得的信息。
骚乱报道最核心的问题,无外乎探究原因,政客和评论家们对此众说纷纭。时任首相卡梅隆认为,骚乱与贫穷无关。而数据博客把涉嫌骚乱的犯罪嫌疑人的家庭住址叠加在反应贫穷程度的地图上,显而易见,二者有较强的相关性。骚乱中,警方指责Twitter和Facebook等社交媒体散播谣言,助长了骚乱的蔓延,警方甚至一度考虑短时关闭社交媒体。那么社交媒体在事件中到底起到了何种作用?数据博客与伦敦政治经济学院的学者们合作,分析了几条典型谣言在Twitter上的传播过程,他们抓取了Twitter上有关骚乱的257万条推文进行分析,其发现与警方的断定南辕北辙,实际上,大量的推文在澄清谣言,并提供了应对骚乱和洗劫的建议(图1)。[3]
图1 《卫报》数据博客刊载的Twitter上有关骚乱的谣言传播路径图[4]
1981年,英国同样发生了类似的骚乱,斯卡曼勋爵(Lord Scarman)领衔的调查委员会对骚乱原因做了深入剖析,其调查结果对社会政策产生了深远影响。而2011年骚乱后,官方并未进行系统调查,但有关骚乱的数据新闻报道为我们揭示了更为丰富、全面的事件信息,也提供了有别于官方话语的图景,这些报道基于可供验证的数据而非个人判定。[5]20年前,没有社交媒体,无法获取地理位置信息,也没有丰富的数据,今天,我们所处的“大数据时代”孕育了新闻生产更多的可能性,数据新闻正是其中之一。理解“大数据时代”是理解数据新闻的起点,以下简要阐述何为大数据。
大数据”(big data)频繁出现在各种新闻报道、行业报告以及学术论文中。谷歌搜索趋势显示,“大数据”一词的搜索热度从2011年开始提升,2017年,对大数据搜索热度最高的国家即中国。然而到底什么是“大数据”,学术界至今莫衷一是,我们先从追溯大数据的早期使用开始,探究何为大数据(图2、图3)。
图2 Google趋势显示的大数据(big data)一词的搜索趋势[6]
图3 Google趋势显示大数据一词在不同国家的搜索热度[7]
1.大数据溯源
常见的定义方法认为,大数据是“大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据”[8]。这个定义被广泛使用,但它抹杀了大数据作为一种社会现象所凝结的人类社会文化、经济、科技等方面发生的深刻变革。诚然,在社会科学研究中,术语的定义通常充满争议,更有价值的路径是探究这个概念的生成历史,研究它如何被使用,追本溯源,可厘清社会现象背后不同力量的交织作用。
有学者认为,大数据一词最早源自经济学领域,华尔街的商业分析和经济学中的建模孕育出大数据的概念。宾夕法尼亚大学的经济学家迪耶伯德(Francis X.Diebold)在一篇宏观经济分析的论文中使用了“大数据”一词,这篇文章成文于2000年,发表于2003年,文中提出使用大数据分析的方法衡量和预测宏观经济。[9]跳出经济领域,实际上,早在20世纪90年代中期,硅谷一家顶尖的科技公司——硅谷图表公司(Silicon Graphics Inc.,SGI)——的午餐会上就曾反复讨论过“大数据”。[10]该公司的首席科学家约翰·R.马西(John R.Mashey)在多个场合发表演讲,提出随着数据量飞速增长,以及数据类型日益多样,用户的期待也水涨船高,科技公司需要提升基础设施以应对爆炸性增长的数据。[11]随后,1998年,两位计算机科学学者在他们出版的图书《预测性数据挖掘:实践指南》(Predictive Data Mining:A Practical Guide)中也提出了大数据的概念。这正是大数据一词的早期使用,迪耶伯德认为,大数据最早便横跨计算机科学、统计学与计量经济学等多个学科领域。[12]
2.大数据的意涵
大数据一词的流行离不开不同主体围绕它生产的大量话语,其中最为积极的主体莫过于经济和商业力量。2011年,麦肯锡全球研究院推出了156页的报告——《大数据:下一个创新、竞争与提高生产力的前沿》,提出数据的爆炸性增长已将人类社会带入到大数据时代。[13]根据统计,“1998年全球网民平均每月使用流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1GB等于1 024MB),2014年将是10GB。全网流量累计达到1EB(即10亿GB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而在2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。”[14]数据已渗透到每一个行业和多个业务领域,成为重要的生产力要素,并将成为未来商业竞争的基础。麦肯锡的报告提出,大数据将从5个方面创造新价值:透明性;发现需求,提升服务;人群细分,精准定制个体需求;通过算法替代或支持人类决策;创新商业模式、产品和服务。[15]越来越多的公司将数据业务作为其最新的增长点。与商业力量并驾齐驱,科技力量是另一股积极推广大数据的主体,物联网、微型传感器、云存储等技术的飞速发展,使得大数据的储存和分析成为可能。大数据将改变社会运行方式,基于海量数据,计算机可以帮助人类做出更好的决定,近年来,类似的论调不绝于耳。
大数据不仅是经济、科技现象,也是一种社会文化现象。路易斯(Seth Lewis)和韦斯特兰(Oscar Westlund)提出,作为社会文化现象的大数据主要受到三种动力机制的相互形塑影响:
●技术层面:大数据的运用可以最大限度地提升计算能力和算法精度,以收集、分析、链接和比较大型的数据集。
●分析层面:利用大型数据集挖掘模式,以做出经济、社会、技术或法律上的判断。
●产生迷思:人们普遍认为,大数据带有真理、客观与准确的光环,它能够提供更高层级的智能和知识,能够产生此前人类无法获知的洞见。[16]
围绕大数据产生的迷思尤为值得社会科学研究者关注。这意味着研究者应跳出大数据有多“大”的迷思,转而去关注它如何宣称“大”以及如何使用“大”。吉莱斯皮对“平台”一词的研究也同样适用于大数据研究。有学者研究认为,这些语汇并非凭空产生,“它实际是由抱有明确目的的利益相关方,在可资选用的文化词汇表中精心雕琢后生成的词汇,它可以面向特定的群体产生特定的回响。这些话语努力不仅是为推销、说服、劝说、保护、战胜或谴责,而是要宣称这些技术是什么或不是什么,以及从技术中应该期待什么和不该期待什么。换句话说,这些话语意图确立的是衡量技术的标尺”[17]。而这个标尺会限制我们对社会现象的理解,会让我们按照话语生产者所期待的方向来理解社会现象,而拆解这个标尺的确立过程也是祛魅的过程。秉承这样的立场,本书在分析中始终谨慎地使用“大数据”一词,避免成为鼓吹者,而是更多关注大数据背后的驱动力量以及话语努力。下文我们将从更具操作性的层面探讨大数据的特点,并据此理解大数据对方式方式带来的变革。
3.大数据与思维变革
为将大数据概念与较大量的数据区分开来,计算机专业人士用5个“V”来界定大数据的特征:
●海量(Volume):数据量巨大,超过了传统软件的储存处理能力;
●多样(Variety):数据类型多样,包含文本、视频、音频、地理位置信息等多种类型的数据;(www.xing528.com)
●高速(Velocity):高速产生甚至近乎实时产生的数据;
●真实(Veracity):数据质量较高,确保真实性;
●价值(Value):大数据需要跨学科、跨领域协作处理,以挖掘数据的多样价值。[18]
这套定义标准最早由IBM公司数据分析团队依据电子商务的特点加工后提出,随后计算机行业人士又进行了讨论修改,目前以5个“V”来定义大数据的特征已被广泛接受,这也说明科技、商业力量在阐释大数据现象时具有较多话语权。
在上述特征的限定下,大数据不仅指数量较大的数据,更意味着数据处理和分析方式的变革,这也意味着我们需要变革思维方式以挖掘数据的多样价值。[19]
首先,大数据不再需要随机抽样的方法,而是采用全部数据来做分析,也就是说样本=总体。
其次,大数据不再也无法追求精确性,精确性是小数据时代的产物,在信息匮乏的时代,缺失任意一点的数据,都可能会导致结果的偏差。在信息爆炸的时代,数据量达到某个值以后,其边际效用会降低,由此大数据可以不再追求精确性。而且海量、高速和多样的数据也带来混杂性,接受大数据的混杂性反而能获得更多信息。
最后,大数据不再强调因果关系,转而探究相关关系。通过大数据分析,找出关联物,通过监测关联物就可以预测未来,所以“建立在相关关系分析法基础上的预测是大数据的核心”[20]。作为社会子系统之一的新闻业不可避免地受到大数据的影响与冲击,以下将就此展开论述。
使用数据对新闻业来说并不是什么新鲜事,《卫报》数据博客的前主编西蒙·罗杰斯(Simon Rogers)曾将《卫报》使用数据的历史追溯至1821年5月5日该报创刊号上刊登了有关学校教育的统计数据。[21]虽然彼时的数据与今日之大数据相去甚远,但这至少说明新闻业从未离开过数据。不同的是,在大数据时代,新闻与数据间的联结更为紧密和复杂,有学者提出,大数据对新闻业最根本的改变来源于改变了新闻的认识论基础。
新闻业是现代社会重要的知识生产机构,新闻业的认识论是指新闻业如何认定何为知识,什么又是真实、合法的知识。一般来说,新闻业依据一定规则、成规和制度化程序展开知识生产实践,[22]比如新闻价值判断决定了什么是新闻业认可的知识,而遵循客观性和信源交叉检验规则的新闻业可以宣称这些知识是真实的,由此主张自己作为知识生产机构的合法性。价值判断、规范、成规等构成了新闻业的认识论基础,而大数据正在重塑这个基础。我们借用麦茨·艾克斯特罗姆(Mats Ekström)的研究成果,从三个维度分析本书开篇提到的《卫报》伦敦骚乱报道,以审视大数据对新闻业的改造。
00艾克斯特罗姆在研究电视新闻时,提出新闻业的认识论可分为三个组成部分:[23]
●知识的形式:即与媒介类型相关的知识的形式,以及这种知识的特征;
●知识的生产:生产知识所遵循的专业规范或常规;
●知识的接收:知识被公众接受或拒绝的决定性条件。
我们将这个理论框架简化为更具可操作性的衡量标准。其中,知识的形式简化为生产资料,即用来生产新闻的原始材料;知识的生产简化为生产方式,即对生产材料的处理方法;知识的接收简化为受众的接收方式。并据此分析了有关骚乱的数据新闻报道,详见表1。
表1 《卫报》骚乱报道分析
从表1中可以看出,数据已成为生产资料的核心,并且数据被认为更客观、真实。与之相关联,生产方式也有革新。传统新闻生产较为封闭,生产资料和生产过程都是不公开的,比如记者的采访笔记、采访录音都被视作是个人或组织的财产,而基于数据的新闻生产以开源、协作、开放等为特征,数据作为原始生产资料对公众公开。在与受众的联结方式上也以受众参与为典型特征,而在传统新闻生产中,受众常是被动接收的角色。这些变革都意味着合法的知识和合法的新闻实践的定义正在发生变化。
类似的案例不胜枚举,更加典型的例子是专注于数据分析和民意调查报道的网站538(Five Thirty Eight)[24]开始走红,该网站聚焦于对大选中民意调查数据的分析报道。538网站随后被《纽约时报》纳入麾下。“到2012年年初,根据对《纽约时报》网站浏览量的统计,大约10%~20%的政治报道浏览量中包含有‘538’,而在总统选举前一周,这个数字达到了71%。选举前一天,《纽约时报》网站的访客中有20%浏览了‘538’。”[25]此外,“538”网站上大多数报道所依据的生产资料都在开源代码平台——Github上公开。
数据与新闻的联结日益紧密,有学者总结称新闻业正在经历“量的转向”(quantitative turn)。[26]为更系统地理解大数据对新闻业的影响,我们需要首先建立一套概念框架,学者路易斯和韦斯特兰提出的四个维度的衡量框架可供参考:[27]
首先,在认识论上,大数据是否挑战了新闻业对事实的认知,它是否会让新闻报道更加客观。
其次,在专业技能上,大数据获取与分析涉及一定的编程技能,这就要求传统记者更新自己的工具包,而缺乏相应技能可能会影响传统记者的管辖权和职业权威。
再次,从经济基础的角度来理解,大数据可能会催生新的商业模式。同时大数据可更为精准地描画受众喜好,监测传播数据,这些数据会反过来影响内容生产。
最后,从伦理角度考量,大数据可能牵涉个人隐私,也可能会存在数据造假的问题。此外,大数据分析处理所提出的透明、公开、参与等诉求可能会重塑新闻业的伦理准则,已有学者提出,大数据时代,透明或会成为新的客观性。[28]
在这个框架基础上,我们再增加一个组织维度,即新闻机构作为组织如何应对大数据,哪些组织特性决定了其行动逻辑。本书后续章节将探讨大数据对认识论、专业技能以及组织维度的影响。
数据新闻正是大数据时代新闻业产生的新型实践之一,而目前学术界对它的研究远落后于实践的发展,下文将阐述研究数据新闻的意义。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。