首页 理论教育 大数据时代,理论不死:量化一切的数据化核心

大数据时代,理论不死:量化一切的数据化核心

时间:2023-06-05 理论教育 版权反馈
【摘要】:可是到了大数据时代,有一种论调——理论已死——认为理论已经没有存在的必要,只要有数据就够了。事实上,大数据也是有理论基础的。譬如分析大数据所用的就是统计和数学理论,还涉及部分计算机科学理论。尽管这些理论与相对论、量子论似有较大差距,但同样具有理论指导意义。维克托·迈尔-舍恩伯格在《大数据时代》一书中就提出了“datafication”的概念,认为量化一切是数据化的核心,让文字、方位、沟通甚至世间万物都变成数据。

大数据时代,理论不死:量化一切的数据化核心

理论是认知的必经途径,是用来在实践中理解和分析世界的。可是到了大数据时代,有一种论调——理论已死——认为理论已经没有存在的必要,只要有数据就够了。也就是说,譬如世界的运作、人类的行为等普遍规则也都不重要了,只要有数据分析,一切问题就都解决了。

事实上,大数据也是有理论基础的。譬如分析大数据所用的就是统计和数学理论,还涉及部分计算机科学理论。尽管这些理论与相对论、量子论似有较大差距,但同样具有理论指导意义。在数据选择、收集的过程中,理论影响着人的决定;在分析数据的时候,选择分析工具所依赖的同样是理论;研究结果的解读,也需要基于一定的理论。因此,大数据时代不仅绝不代表理论会消亡;相反,在大数据的方方面面都渗透着理论,需要着理论。

技术是大数据价值体现的手段和前进的基石。大数据技术,是从各种类型的数据中快速获取有价值信息的技术,包括分布式处理技术、存储技术和感知技术等。这些技术成为大数据采集、存储、处理和呈现的有力武器(见图1-2)。

图1-2 大数据的技术图谱

资料来源:根据相关资料整理

感知技术

大数据的采集与感知技术的发展是紧密联系的。提升以传感器技术、指纹识别技术、RFID(射频识别)技术、坐标定位技术等为基础的感知能力,同样是物联网发展的基石。全球工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。

随着智能手机的普及,感知技术可谓迎来了发展的高峰期。在地理位置信息被广泛地应用的同时,一些新的感知手段也开始登上舞台,比如手机内嵌的指纹传感器。除此之外,还有很多与感知相关的技术革新让我们耳目一新。比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel(英特尔)正在研发的3D笔记本摄像头可追踪眼球,读懂情绪,日本公司开发新型可监控用户心率纺织材料等。

其实,这些感知被逐渐捕获的过程就是世界被数据化的过程,一旦世界被完全数据化,那么,世界的本质也就是信息。维克托·迈尔-舍恩伯格在《大数据时代》一书中就提出了“datafication”的概念,认为量化一切是数据化的核心,让文字、方位、沟通甚至世间万物都变成数据。(www.xing528.com)

分布式处理技术

分布式处理技术可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务。

Map Reduce是谷歌提出的一种云计算的核心计算模式,是一种分布式的运算技术,也是简化的分布式编程模式。Map Reduce模式的主要思想是将自动分割要执行的问题(如程序)拆解成Map(映射)和Reduce(化简)的方式,在数据被分割后通过Map函数的程序将数据映射成不同的区块,分配给计算机机群处理,达到分布式运算的效果,再通过Reduce函数的程序将结果汇总,最后输出开发者需要的结果。

Hadoop是一个实现了Map Reduce、对模式的大量数据进行分布式处理的软件框架。第一,Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点进行重新分布处理。第二,Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。第三,Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,其成本比较低,任何人都可以使用。

存储技术

大数据可以抽象地分为大数据存储和大数据分析,而大数据存储的目的是支撑大数据分析。目前它们还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB、EB,乃至YB级别的数据存储平台,大数据分析关注在最短时间内处理大量不同类型的数据集。比如,谷歌大约管理着超过50万台服务器和100万块硬盘,而且谷歌还在不断扩大计算能力和存储能力,其中很多的扩展都是在廉价服务器和普通存储硬盘的基础上进行的。

再如,Amazon S3是一种面向互联网的存储服务,旨在让开发人员能更轻松地进行网络规模计算。Amazon S3提供一个简明的Web服务界面,用户可通过这个界面随时在Web上的任何位置存储和检索任意大小的数据。这项服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施。亚马逊用它来运行其全球的网站网络。S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥有万亿跨地域存储对象,同时AWS(亚马逊云计算服务平台)的对象执行请求也达到百万的峰值数量。目前在全球范围内,已经有数以十万计的企业通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布全球190多个国家和地区,几乎世界上的每个角落都有亚马逊用户的身影。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈