首页 理论教育 大数据时代中的人文关怀:优化行为数据的可视化

大数据时代中的人文关怀:优化行为数据的可视化

时间:2023-07-05 理论教育 版权反馈
【摘要】:2012年,被誉为“开大数据研究先河之作”的《大数据时代》一书问世,作者舍恩伯格也因此被称为“大数据时代的预言家”。“大数据”一词如雨后春笋般在各个领域涌现,大有“言必称大数据”之势。如何有效挖掘数据,成为将“数据”转变为“大数据”的关键,也就是说,数据大并不意味着“大数据”,对海量数据进行有效分析、处理和应用是成为“大数据”的必要条件。

大数据时代中的人文关怀:优化行为数据的可视化

朱锋刚 李 莹(2)

数字技术的广泛使用改变了信息的存储形式,同时极大地影响着知识生产形态、思想传播方式和组织管理模式,甚至连思维方式也在悄然发生改变。知识领域基本问题的根本性变革诱发整个社会生产方式嬗变,人类文明的面貌正在以新的面貌书写、呈现。大多数人对于数字技术所带来的这种改变及其背后所蕴含的机遇、挑战缺乏应有的理性审视。2012年,被誉为“开大数据研究先河之作”的《大数据时代》一书问世,作者舍恩伯格也因此被称为“大数据时代的预言家”。“大数据”一词如雨后春笋般在各个领域涌现,大有“言必称大数据”之势。虽然人们对于数字技术和信息数据化对信息世界所造成的改变究竟有多大未必有清晰的认识,但这一盛况至少反映出人们已开始认识、面对大数据对于人类现实生活的影响。人们在谈论人类行为模式时,“大数据”一词闪现的频率越来越高,这说明了它已渗透到生活的各个方面。理性时代的个体在面对一切皆可数据化的知识世界与效果“量化考核”标准时,行为往往会显得缺乏理智。除了心气浮躁、急功近利等个体主观因素外,对当前大数据下正在展开的问题缺乏较精确的判断和解决的智慧才是关键所在。

鉴于数字化技术大大提高了知识的存储、搜索、利用功能,学术资源数字化成为推进当前学术研究领域的重要举措。如古籍数字化、各类文献数据库建设等都见证了这一点。这大大拓展了人们在学术研究过程中接触文献的范围与可能,从而能更加广泛地了解相关领域的文献材料与研究进展。但人们在享受到数字化技术为学术研究带来的便捷性的同时也深感不适。文献材料呈几何级速度增长,以往的阅读习惯、研究分析方法显现出了不足。人们越来越希望掌握更多的文献材料,以获得最合理的研究结果,但过于庞大的文献总量带来了如何有效甄别材料的问题,把人们引向了另一种困境。因此,技术的引入势在必行。云计算应运而生,它如何应用于人文学科领域尚未可知,但技术力量越来越大确是不争事实。以往占主导性的学术生产方式需要进行调适,其固有的权威性更受到了极大挑战。

海量数据使得现代学术研究所需处理的文献材料越来越容易涉及学科交叉和文献取样有限等问题。基于大数据的分析法在处理此类问题方面确实有优势,这就为新研究方式的生存空间及其权威树立提供了现实可能。新的研究范式会对问题的探究呈现出不同的面貌。然而基于大数据的研究方式将在何种意义或何种范围内取代以往的研究方法,或者说以往的研究方法如何保证其有效性,这给很多研究者带来困惑。其中量化原则与定量分析已成为佐证自身结果合理性的标识,这一方法论倾向作为各类问题研究的指导原则,潜移默化渗透到人们对于问题的分析、解释和把握之中,并依此来确定、衡量其相应的意义。尤其是当大数据时代提出以“全量原则”取代“抽样调查”,更放大了“量化原则”解决问题与解释现象的合理性。暂且不论“全量原则”在技术上如何实现,但人的行为因此在大数据的光照下得到了前所未有的精准预测,并可以享受“私人定制式”服务,面对如此强大的力量,理论分析、调查法、相关法或实验法等的科学性相形见绌。

数据来源之一是人们在网上做出社交、购物等行为时留下的踪迹,所谓预测精准正是基于如此方式留下的海量数据并通过云计算技术、数理统计等方式而得出的。这种预测的精准性如同一双无处不在的眼睛在默默监视着人的活动,哪怕它不会对人的行为进行任何实质性的干涉,但这种关注本身在改变着人们的感受。无形的关注会影响事物的状态,这有点像量子力学中“不确定性原理”所描述的情景。虽然大数据的预测方法囿于各种原因尚未发挥到极致,但其对结果的“未卜先知”已经令人震撼。

虽然数据分析能力还跟不上数据量激增的步伐,但挖掘海量数据背后所蕴含的价值已成为许多领域寻求的突破点。如何有效挖掘数据,成为将“数据”转变为“大数据”的关键,也就是说,数据大并不意味着“大数据”,对海量数据进行有效分析、处理和应用是成为“大数据”的必要条件。与之相应,“数据挖掘被认为是一种专门的数据分析方式,与传统的数据分析(统计分析、联机分析处理)方法的本质区别是前者在没有明确假设的前提下去挖掘知识,所得到的信息具有未知、有效和实用三个特征,并且数据挖掘的任务往往是预测性的而非传统的描述性任务”(3)。梳理相关文献数据以达到对以往发生的事情进行描述,这是传统数据分析的理路,其目标是通过数据来实现的。虽然也存在对于经验的反思,但人们很难实现预测目标。从某种意义上讲,历史学正是传统数据分析的代表。

随着数据化的实现以及信息存储成本的大大降低,人们对数据的分析方法也出现根本性改变。数据规模空前增大,大量非结构化数据的涌现,这些问题是传统数据分析方法难以解决的,也对以历史学为代表的学科提出新的考验。数据新特征的出现源于新技术的现实支撑,其相应问题的解决也有赖于数据分析技术方面的突破。“近年来,以数据为研究对象的电子科学、信息科学、语义网络、数据组织与管理、数据分析、数据挖掘和数据可视化等手段,可以有效地提取隐藏在数据中有价值的信息,并且将数据利用率提高到传统方法所不能及的高度,是提炼科学原理、验证科学假设、服务科学探索的新思路。现在,研究这种综合性方法的学科被称为‘数据科学’。”(4)数据科学从技术层面来研究这种新现象,为其他学科提供数据分析方面的技术支持,使非结构化数据的分析成为可能,因此现代的数据挖掘能够通过分析大量数据而做出精准预测。“数据科学是大数据时代应运而生的一门新学科。围绕数据处理的各学科方向都开始遇到前所未有的挑战。……如何有效地获取数据、有效地处理数据获取的不确定性,对原始数据进行清理、分析,进而高效地完成数据存储和访问,达到去重、去粗取精的目的,是急需解决的问题。”(5)这对于依靠数据进行推论分析的诸学科而言意味着一场颠覆性革命的爆发。

商业领域,诸如亚马逊阿里巴巴之类的企业早已深谙这种革命背后潜藏的巨大能量。它们通过分析海量数据了解客户的需求以便提供更有针对性的服务,从而谋求更大的发展。掌握大量数据并具备相应的分析能力,意味着这些企业已经主动适应了现代社会的数据化要求,同时为其他领域审视数据与自身生存发展的关系提供了启示。数据搜集能力与分析能力是决定人们能否真正跨入大数据应用时代的关键,也是衡量数据维度能否支持其发展的标志。2009年1月,奥巴马在上任第一天签署了5个重要文件,其中《透明和开放的政府》和《信息自由法》最为重要。(6)2015年7月,《国务院关于积极推进“互联网+”行动的指导意见》出台,这些都标志着“数据维度”已经正式被纳入政府治理的视域中加以关注、落实。商业领域与公共领域的“数据化”努力是对数据于现代社会的重要性的回应,这势必会影响整个社会信息生态。当其他领域都已着眼于与自身相关的数据库的建设与应用,学术研究也不例外

“如何收集、管理和分析数据正日渐成为我们网络信息技术研究的重中之重。以机器学习、数据挖掘为基础的高级数据分析技术,将促进从数据到知识的转化、从知识到行动的跨越。”(7)即便是历史、哲学等人文学科也不例外。数据所描绘的研究对象作用的变化,不仅会影响知识的生产方式,而且会使知识与行动之间的关系发生改变。文献资料大量涌现,超出了传统文献处理方法的能力,信息数据化已势不可挡,而挖掘、分析信息数据的技术更是当前计算科学领域发展的一大新趋势(如信息可视化、可视分析研究和应用等)。人文学科也遭遇了数据如何搜集及有效分析的问题,这必然促使其充分借鉴、吸收数据科学领域在获取和分析数据方面的成果,以更好地运用材料,推进学术研究。庞大的数据库虽然降低了人文学科存储资料的成本,但也使得相关从业者要花费大量精力来搜索、整理有效信息。同样的主体面对信息加工方式改变后所出现的“一切皆数据化”的趋势,必须在研究过程中对注意力的分配做出重大调整,才能适应这种变化,以提高自身研究工作的有效性。有鉴于此,如何在人脑之外保存待处理信息,将人的感知系统中某些认知行为尝试由机器取代就成为计算科学所致力于实现的任务与目标。数据可视化正是计算科学领域解决如何提升人们信息处理能力的一个方向,此类研究成果会以某种方式影响到生活的方方面面。在人的感知系统中,许多原本由人脑来处理的任务交由机器来解决,而研究者则根据机器处理后的结果来观察、总结数据以寻求其背后所蕴含的真相,从而形成相应的观点与见解,陈述事实、预测未来。一切数据化的实现使得信息记录方式彻底改变,也使得知识传播与接收的方式变得不同。人文学科在享受计算科学减负后所带来的轻松后,也感受到不安。既然知识的建构是基于人们有效获取、整理和分析信息而实现的,面对深度学习等能力越来越强大的机器,以人的行为为研究对象的人文学科该如何调适自己的角色与功能也成为相关主体需要思考和面对的问题。

“在科学研究领域,传统的科学探究模式正在遭受来自大数据的强烈冲击。……海量科学数据的产生将科学研究推进到一个新的模式,数据在科学探索中开始发挥着越来越大的作用。”(8)随着数据所扮演的角色越来越重要,主体以往处理信息与知识的经验必须做出重大调整,原本主体所承担的任务与发挥功能的很多领域逐渐让渡于机器,如数据储存等基础性工作大多可以通过机器完成。人文学科的研究有赖于计算、感知、认知和创新能力。其中,对于计算能力的要求显得尤为突出。这一新特征的出现很大程度上是源于数据的易储存性和可转化性。人们有意或无意的行为积累了大量信息,人们获取或分析大量数据信息的能力直接影响到其对于事情做出判断与反应。人的感知和认知能力在这样的过程中形成,通过源源不断地接受、提取、转化、加工信息,并最终形成知识。人们学习、研究过程中相应能力所出现的这种改变正是源于大数据的兴起,生产知识、创造价值和凝炼智慧的方式也变得不同。法国哲学家拉美特利关于“人是机器”的说法虽然不尽合理,但至少从某个侧面说明了机器在改变人类感知世界经验的作用。主体功能的改变也会造成生存经验随之发生调整。其实,随着近代实验科学的兴起,“科学技术”以工具形式在人类认知、改造世界的过程中呈现出惊人的能力,人的主体地位在技术扩展地盘的进程中得到充分的彰显。其中,技术改变了主体与世界互动生成的关系模式,这注定会使人们在现实生活中酝酿、总结新经验,并伴生着主体功能的转变。

人类历史上几次关键性的技术突破都促成了人类的信息革命,而人类的生存活动又都与生产、储存、传播信息的方式密切相关。技术正是以优化社会结构中的某个要素为突破点来塑造整个社会面貌的。经验是基于对以往生存方式的习得与总结,人类在不断优化生产方式的过程中调整自身生存经验的内容,反省主体能做什么。回顾整个人类信息历史,有几次革命可以总结出其中蕴含共同性。“语言——信息表现和交流手段革命,促进了人脑发展;文字——信息流动突破了时空限制;造纸术印刷术——信息获得成本大幅降低;无线电/电话——由纸媒传播转化为电传播,内容突破了文字形式;微电子和现代通信技术——开始获得和使用全面、完整、系统的数据,向智能化迈出重要一步。”(9)寻求技术突破以期改进人们获取信息的成本及提升知识转化为行动的能力,这势必会影响到根据以往社会生产要素所整合而成的习惯及与之相应的经验效率。虽然智能化和大数据是现代社会人们获取信息与转化知识时的重要特征,但主体经验的不同调适及其功能的改变从古至今一直在进行中,从未停止过。科学技术在近代以来展现人的理性能力的过程中表现出强大的力量,“精确化”成为衡量认知模式有效性的重要参照。以人为研究主体的人文学科在很长一段时间内也在致力于实现“科学化”,这种比照反映了主体在确证自身过程中认知模式的调整。暂且不论这一努力方向的合理性与有效性如何,也不管人们基于何种理念致力于实现科学化,至少在以智能化与大数据为标识的时代,人文学科的研究与人文关怀的实现都有赖于科学技术提供现实支撑。

在智能终端与信息皆可数据化的趋势下,信息存储与获取环节得到极大的提升,这使得人们在做出相关判断时所需处理的数据量越来越大,数据内容、数据关系越来越庞杂。知识某种意义上正是处理信息的能力与过程。人们依据知识来获取有启示性的智慧。“数据科学”从技术层面改变着人们表现主体功能的领域与范围,塑造着人们感知世界的新习惯。信息领域出现的这一新现象是人类致力于提升主体地位、增强认知世界的功能所致。人类整体上的认知功能增强了,然而对于绝大多数人而言,个体与世界的互动生成模式改变了。这种变化程度越大,对人的行为习惯、思维方式所构成的挑战也越大。日常生活如此,学术研究领域也不能幸免。

以往的经验知识与研究方法会受到制约,计算能力的要求反映在学术研究领域就是要求人们必须学会新的分析、运用文献材料的能力。唯有如此,学术研究才能适应、借鉴、应用知识生产的新模式所带来的改变,从而拓展创新的空间与可能,获得更佳的洞见与智慧。如何管理数据和确保数据质量成为人文学科研究不得不面对的问题,历史学通过甄别文献材料真伪等方式来完成其知识构筑,这从某种意义上讲正是传统的管理数据的方式。随着信息文献共享、可复制性、易传播等特征的出现,面对文献材料流传过程中出现的新情况,传统的构筑知识的方式呈现出一定的局限性。为了应对这种新情况,数据库建设等措施已成为现代学术研究的普遍共识。因为诸如数据库建设、检索系统的不断完备降低了人们处理、搜索信息时的难度,节省了研究者的精力,使得研究者有时间来关注新情况之于世界所带来的改变及其所蕴含的创新可能。

除了数据库建设外,人文学科的研究也如同技术领域的研究进展一样,需要不断地推进数据分析的能力。在人文学科中,这种能力对注重文献的历史学研究而言尤为重要。面对大数据,人们可以在处理分析数据的过程中充分发挥以往的研究模式与个性化、学术性的经验优势,以创造出不同于以往的认知对象的方式。这将大大拓展人对于数据材料的应用水平,为创新提供更多的可能。

面对浩如烟海的数据,如何提升信息提取的效率,从而帮助人们降低数据复杂化所带来的困境,缩短人们理解信息的环节,计算科学已从技术方面予以推进。这既是对传统认知、分析数据方法功能上的修正、补充与突破,也为人文学科审视固有研究方法提供了现实支撑。不管你喜欢与否,日常生活、学术研究都有赖于技术支撑以提高分析信息、生产知识的效率,节省下来的时间可供人们思考、孕育智慧。对于大多数人,包括人文学科研究者而言,他们在数据搜集、分析处理过程中是旁观者,但使用技术所提供的现成结果。目前人类获取数据的能力大大超出了分析数据的能力,计算科学之于有效搜索的获得至关重要。这些结果呈现在人的面前,需要人依据直觉和已有的知识做出判断。机器智能接手了大数据下的许多“人”所承担的工作,然而我们能否对人机之间“任务交接”背后所含的意蕴做出睿智的判断呢?大数据下的人文关怀显然并不是直接以此表现,而是以别样的方式体现。

你在哪里呀?”

我在这里呀。”(www.xing528.com)

这段对话反映了人与人之间的询问与关切,是熟人表达关心的常用语。这种问候虽然大多数时候不会对对方造成实质性影响,但却能使彼此感受到牵挂与关怀。“父母在,不远游,游必有方。”(《论语•里仁》)这句话涉及“孝”的问题,但也可以从“搜索”与“定位”的关系来理解。因为父母与子女之间的天然亲情使得彼此时刻惦念着对方身在何处,“音讯皆无”势必会让思念加倍、牵挂更甚。因此,在信息传播极不发达的时代,临行前告诉对方自己身往何方,是一种“定位”方式,也为确保“搜索”结果提供线索。人与人之间表达关怀时如何突破空间限制、实现互动沟通,或许是人类致力于不断提高信息传播效率的一个动力因素。当然,搜索与定位从来不局限于亲情之间彼此表达关怀,这两者也一直充斥于社会各个角落。

“搜索”意味着寻找想要的对象,“定位”意味着确定对象。搜索成为可能,首先意味着“关注”。何种对象会被人们首要关注呢?虽然百无聊赖的“八卦”式打探是关注的重要表现形式,但喜欢与影响力是持久吸引人们关注的主要动力。这两类表现关注的形式一直存在。在电力尚未成为社会生活的主要能源时,“八卦”式的关注所触及的对象大多数局限于周边的熟人,并在熟人间接传递信息中获得。喜欢则会将人们的关注引导到某个领域,予以较常人更深入细致的关注。影响力则会改变信息格局中的地位,使得人们因为其重要而有意无意地予以更多关注,社会公众人物往往是这样的对象。大多数普通人因为缺少影响力而往往不会被人关注,除了亲友与熟人外,只有他身上发生引起“八卦”的事情,世人才会对他有更多的关注。一个人可以心系天下,但真正关注这个平凡个体的只有熟人世界,除非他以某种机缘成为公众人物,关注才会突破熟人的边界。思想、权力、财富是构成“机缘”的主导型要素,对大多数人而言,此类机缘只能是偶然的。普通人没有数据或文献供世人在离开当下的情景后加以关注,尤其在传统社会,受人关注似乎是帝王将相的特权。因为关注与信息构成机制直接相关,普通人所传递的信息除极个别以私人日志的形式留存外,大多数信息不易保存,无法真正引起普遍性的关注。“搜索”无从开展,“定位”更是谈不上。

信息储存、传播技术的变革使得原本的想象图景变得现实,普通人的日常行为会以数据的方式记录下来。互联网时代,个人每天在网络上的活动都会以数据的形式被记录下来,产生了海量的行为数据。这些数据详细描述了人的行为踪迹,我们可以利用相关认知模型来推进对自身行为的认知。由数据缺乏到数据海量,这使得人们的关注重点和关注方式发生转变。以前,大多数人的行为因信息匮乏、无迹可考而湮没无闻;现代,大多数行为又因数据过于浩瀚、难以筛选出有价值的信息而无法引起关注。随着数据科学在统计、分析和提取信息方面的突破,面对海量数据,若想关注人的行为,首先需要搜索相关数据。人利用机器进行数据搜索,这是利用、理解数据的过程,同时也产生着新数据。没有机器帮助搜索,关注将会因湮没于数据海洋而迷途。

每一次网页点击与访问都会生成相应数据,都可成为被分析的目标。虽然数据多元复杂甚至杂乱无章,但它们都与个人行为紧密相关,蕴含着人的生存模式。尤其是随着智能终端的广泛使用,行为数据化的趋势越来越明显,可记录的范围与内容也越来越广。数据采集、储存、使用等环节存在着错误与不确定性。随着数据分析能力的提升,人们可以通过分析大量数据勾勒出自己的行为轨迹,这是现代定位方式。智能终端的出现使得空间意义上“你在哪里”的问题更易解决,而“我在这里呀”的答案变得无关紧要,甚至不需要回答。因为当人的行为皆转化为可供分析的“数据”后,这些数据在生成的同时,其实就是在进行“定位”。面对如此“定位”,“搜索”似乎变得多余,“关注”如影随形。然而,这种持续性的关注并没有使人感受到尊重或关怀,而是陷入不安。因为“关注”的内涵悄然间已由“关切”孕育出“监视”的种子。随着“云计算”等逐渐成为现代社会经济、社会活动的基础设施,它“将为用户像用水、用电一样,便捷、低成本地使用计算资源打开方便之门”(10),为有效搜索提供了技术支撑。搜索越来越有效,定位越来越准,这一变化意味着什么?人的个性化需求或潜意识中的动机成为广泛挖掘对象。大数据时代下,商业领域的敏锐者已经捕捉到这一变化所带来的机会,通过挖掘、满足个体需求来为公司发展赢得生存空间与机遇。阿里巴巴、亚马逊等无疑在这一进程中正践行、示范、领跑。它们之所以能如此成功有效很大程度上取决于掌握了海量数据,数据越多越有利于精准预测、把握行为的动机与预期以作出明智决策。大数据正成为呈现、理解人的生存境况的关键性资源。精准搜索需求,准确定位决策,成为大数据下公司节约成本、赢取机会的两大法宝。客户需求在商家定制化策略实施过程中得到了满足。我们不去讨论商业领域带给人们的这种定制化满足了何种意义上的人文关怀,商业模式的这种转变以“客户”为中心而展开,客户主体性的优先性使得它的地位在这种关系模式下难以撼动,个体获得了前所未有的关注。

这种关注在商业领域是以需求挖掘与利益驱使为动力的。追求发展的本性促使人寻求不断的突破与新的可能。大数据正是在详细记录行为的过程中生成,并根据这些数据对未来做出尽可能准确的预测。为了提供更精细化的服务,需求的确定性与未来的可预测性成为努力追求的目标。与之相伴,监视范围扩大与自由选择余地缩小。人在享受便利的时候,人文关怀似乎在悄然隐没。因为当人变成可计算的存在物时,人的本性以何种方式延续呢?

当人需要在大数据中搜索、定位来确证自我,行为的可数据化成为现实之时,数据为人们打开便利之门时也开启了监视的窗。自由与便利是人性自我实现中的永恒维度,当其现实状况因大数据而改变时,如何关怀人类命运没有那么明晰,人们需要重新审思。

(1) 本文系陕西省社会科学基金重点项目《大数据时代的伦理问题》(项目编号:2015ZD004)的阶段性成果。

(2) 作者单位为西安电子科技大学。

(3) 陈为、沈则潜、陶煜波:《数据可视化》,电子工业出版社2013年版,第104页。

(4) 陈为、沈则潜、陶煜波:《数据可视化》,电子工业出版社2013年版,第89页。

(5) 同上书,第116页。

(6) 涂子沛:《大数据》,广西师范大学出版社2013年版,第9页。

(7) 同上书,第33页。

(8) 陈为、沈则潜、陶煜波:《数据可视化》,电子工业出版社2013年版,第88页。

(9) 阿里研究院:《互联网+:从IT到DT》,机械工业出版社2015年版,第27页。

(10) 阿里研究院:《互联网+:从IT到DT》,机械工业出版社2015年版,第27页。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈