首页 理论教育 大数据的维度分析与海量数据的专业分析和处理

大数据的维度分析与海量数据的专业分析和处理

时间:2023-10-17 理论教育 版权反馈
【摘要】:简单来说,大数据作为一种新型数据类型,是不可能用传统的数据处理技术进行分析的。大数据具有复杂的结构、大规模的数量、迅速的传递性、价值密度低等特征。大数据正在以一种史无前例的规模和速度发展着。大数据之“大”体现在非常规的数据以及与之对应的非常规技术。从这个角度看,大数据的“大”不仅指的是数据体量大,还包括对海量数据的专业分析和处理。

大数据的维度分析与海量数据的专业分析和处理

(一)大数据的自身维度

生活中,我们每天都与数据发生着关联:住宿、酒店、娱乐、保险、典当、房产等行业的消费信息;医疗机构实时监测用户的身体健康状况;交通部门的售票、乘车和登机信息;社区安防系统的监控录像;教育机构根据客户量身定制的培训内容;服务机构为客户设置的满足客户需求的优质服务;社交系统为用户推荐合乎要求的男女朋友,并且将趣味相投的朋友组织联系在一起金融服务行业指导客户从事金融业务,为客户的资金使用及存储设计合理的方案。如果某些人对数据不敏感,这些信息被扩散出去了,如身份证号、电话、座机、姓名、性别、工作单位、工资收入等私人信息,便可能被非法地下机构非法存储或卖给其他任何有需要的企业或个人。

大数据又称海量数据,最早应用于著名开源软件社区Apache的Hutch项目之中,是指数据量大到必须用海量数据处理技术进行分析的大型数据信息。目前,大数据作为一个火热的名词已经传送到各行各业,但是对大数据还没有一个权威的定义。

2001年,高德纳集团在例行的产品发布会上,指出数据的指数型发展需要解决三大问题,即种类(variety)、体量(volume)、速度(velocity),合称3V。从这次发布会之后,各个企业和学术领域也开始用3V来表现大数据的特性。2012年,高德纳集团对大数据的3V特征有了新的认知,加入了第四个特性,即精度(veracity),也有加入价值维度(value),形成5V的特征描述。笔者也根据翻阅的各种文献内容,通过整理归纳得出了大数据的三个代表特性。

第一,庞大的数据信息量。结合国际机构的权威统计信息,全球数据信息流动量在2012年和2016年分别达到了1.8 ZB和2.8 ZB,根据这个趋势,到了2020年,全球的数据信息量可能会达到40 ZB。据思科预计,全球的数据信息量将在2020年达到4.2 ZB。埃里克·施密特认为,“从人类文明产生至2003年,共产生了5 EB的数据,而自2010年开始,人类每两天大概就能够产生5 EB的数据。”这种增长速度是伴随数据存储技术、虚拟现实技术、互联网技术、遥感技术等高端技术的发展而提升的。

就当前的情况来看,数据信息的产生和处理速度已经超越了历史的各个阶段。随着数据处理技术的快速进步,现在的数据传递速度几乎达到了“同声翻译”,加上云平台和云服务的迅速发展,大数据可以安全稳定地存放在云服务器中,确保了大数据的共享和重复使用。从这个角度来说,大部分的信息科学(如环境遥感检测、高能物理、临床医学量子计算等)也由于大数据存储技术和处理技术的进步而发生了质的飞跃。

第二,开放的数据服务。数据信息的存储不仅是为政府部门服务,也应该面向大众,贯穿于工业生产的工作流程中。从某种意义上看,采集海量数据的目的不只是存放数据这么简单,分析、处理数据才是关键。要从数据中找到相关信息,达到挖掘大数据的目的,数据的跨机构、跨部门,甚至全社会的共享将势在必行。举例来说,通过对个人的微博数据、个人电信业务数据、网上购物信据进行归纳整理,就可以得出一个人的征信水平,成为征信的依据,从而提高保险业银行业的服务水平。美国政府已经倡导全社会的数据开放,其中,包含非涉密的政府工作信息、人口地理信息等。相关企业和行业可以利用政府部门公开的这些数据,获取更大的商业价值和社会价值。

第三,复杂的数据结构。一方面,数据的复杂性体现在数据的非结构性上。能够存放在数据库中的大数据都可以认为是结构化的信息数据。在数据库中,数据信息可以被分为字段、表、行等,这也是结构化数据和非结构化数据的一个差异所在。结构化数据可以被分解成字段这一最小单元,而非结构化数据虽然能还原成字段级别,但数据记录之间存在着无法综合的差异。根据统计结果,非结构化数据占据信息数据的约90%。另一方面,数据结构的复杂性还体现在数据类型的多样性。数据信息不单单指数字,也包含图片、视频、文档以及代码、电子地图等专业数据。不同的数据类型对应着不同的数据存储技术、数据处理技术以及数据管理技术。由于海量非结构化数据的存在,新式的数据采集技术层出不穷,如Hadoop并行计算、Map reduce流程等。对数据的处理,也涌现出数据挖掘、NLP自然语言处理等方法。这些新型技术的研发和使用为大数据的发展带来了便利,也为信息产业的发展指明了方向。

从上面的论述可以看出,高德纳认为大数据是具有庞大的数据信息量、开放的数据服务、复杂的数据结构这些特征的海量数据集合,只有通过研发一些相匹配的、区别于之前的数据技术才可以从海量数据中挖掘出想要的信息,帮助企事业单位做出更精准的决策优化社会生活中的各个流程。简单来说,大数据作为一种新型数据类型,是不可能用传统的数据处理技术进行分析的。麦肯锡则认为,传统的数据技术可能并没有过时,但大数据的规模已经超越了传统技术的承受范围。大数据具有复杂的结构、大规模的数量、迅速的传递性、价值密度低等特征。我国《互联网周刊》也给出了自己的看法,认为大数据不只包含海量数据自身和相对应的处理技术,还蕴含在社会生活中。大数据正在以一种史无前例的规模和速度发展着。

从构词方面看,大数据中“大”是一个相对概念,相对于“小”。这里的“小”指常规数据,是可以用常规软件进行抓取、处理、管理的数据集合。大数据之“大”体现在非常规的数据以及与之对应的非常规技术。从这个角度看,大数据的“大”不仅指的是数据体量大,还包括对海量数据的专业分析和处理。

从技术方面看,单台计算机是没有办法对大数据进行分析的,分布式计算机采取并行处理才是解决办法。分布式处理技术是把大数据存放在云服务器上,采取虚拟的计算机服务进行数据处理。设备终端只是对服务器发出命令和显示服务器运算后得出的结果。与海量数据相匹配的分析处理技术已经研发出了许多种,包含分布式文件系统、云计算平台、网络集群等。这些处理技术的使用可以提高数据分析的速度与质量。

随着互联网技术、材料工程和流水线设计的快速发展,越来越丰富的传感器横空出世,并且不同的类型可以适应不同的运行环境,如智能手机卫星遥感、可穿戴设备等,传感器的运用能够不间断地采集和传送信息,以此汇聚成拥有海量数据的数据库。大数据分析处理的应用,帮助管理者对管理对象有了更全面的了解,从而可以站在更高的角度进行决策。从另一个角度来说,种类繁多的传感器可以汇总各行各业对数据类型的要求,以此带来更多的经济价值和社会效益。

对大数据分析处理的目的不是得出唯一的、普遍的结论,更多的是找到社会上各行各业对大数据的不同需求。大数据不单纯是海量数据的简单堆积组合或在处理大数据过程中形成的新型技术,还报考所产生的数据价值以及追逐的数据意义。从战略哲学的角度来看,大数据预见了一种前所未有的世界观,通过海量的数据集,可以帮助管理者进行更精准的决策,为社会带来不可估量的价值。

(二)大数据的工具维度(www.xing528.com)

在大数据时代,随着数据体量的积累,数据类型的增多,数据更新速度的加快,数据的分析和操作遇到了很多困难和挑战。为了解决问题,迎接挑战,新型的数据处理、分析技术应运而生。因此,按照数据采集、存放、分析、显示的过程,可对原始数据进行爬取,并对抽取的资料进行处理,最后将数据保存在数据库中。其中,爬虫技术是获取大数据的关键技术。

数据存取:可利用传统关系数据库、文件数据库、面向对象的数据库或新兴的No-SQL数据库。

基础架构:大数据的基础架构技术包括虚拟化、云存储、分布式存储等技术,如Spark、Hadoop等分布式技术。

数据处理:主要依靠机器学习,如对遥感影像的处理、对社交媒体数据的处理、对金融数据的处理等。近两年发展最快的机器学习技术是自然语言处理。该方法可以让机器理解自然语言,辅助人们理解和归纳纷繁复杂的文本。

统计分析:大数据的分析会运用到统计学知识。第一,描述统计可用来对大数据进行探索描述;第二,推理统计可用于探索数据之间的联系。比如,回归分析、差异分析、聚类分析等这些统计学方法都可以被运用到大数据的分析、处理上。

数据挖掘:通过非监督以及监督对大数据进行聚类分析、评估分类等。

结果呈现:通过词云、社交网络图等技术实现大数据结构的可视化呈现。

(三)大数据的价值维度

大数据的价值体现在大数据的使用环节。根据大数据的应用领域,下面从社会网络、科研、企业及战略预见四个方面来表述大数据蕴含的价值维度。

第一,社会网络。社会对大数据产生关注是从社会网络数据的出现开始的。追本溯源,排除Apache等开源社区网站,热衷于进行大数据处理分析技术开发的企业有亚马逊谷歌百度等。这些企业采集了大规模的样本数据,而要处理这些海量数据,就不得不开发新的技术。比如,Map reduce程序流程的发明就来自谷歌对大规模搜索数据集合“先分发而后综合”的处理,亚马逊所推出的云服务也是来自在电子商务方面的实际探索。这些技术源于实践,从根本上推动了大数据整体的迅猛发展。社会网络数据包罗万象,包含政治文化、经济各个方面。比如,百度拥有的公众搜索数据、阿里巴巴拥有的公众商品交易数据、微信拥有的短消息数据和私密朋友圈数据等。通过对这些的数据进行收集,提取其中的重复性、规律性数据,可为决策者提供决策依据。

第二,科研数据。这类数据存在于拥有高性能计算机及其他匹配设备的研究机构。科研数据所应用的大数据体量相当大。这类大数据激发了大数据科学的产生。大数据科学被认为是在海量数据当中探寻数据规律和数据价值的过程,主要用来分析大数据如何同社会与自然环境进行互动,试图确定其中的联系。而在工程学中,大数据工程是通过人为规划建设的大数据工程项目,并按照预设方案进行管理运营的整个系统。

第三,企业数据。企业数据的类型纷繁复杂,这种数据可以通过生产线上留下的“数据脚印”获得,也可通过物联网感应器获得。这些数据的类型是多种多样的,有比较传统的文档、音频、图片、视频数据,也有大量的社交媒体数据,甚至有3D打印模型数据、地理信息数据等。为了支撑对这些数据的存储和处理,还应匹配相应的分析软件。企业数据分析软件有两种类型:开源与商业。开源代码软件附赠源代码并且不收取任何费用,虽然没有企业对开源软件提供完善的服务支持,但大多具有强大的网络社区,可以提供咨询服务。相比之下,商业软件需要支付昂贵的软件费用或服务费用,但若企业数据遭到破坏,可以利用商业软件及时进行修复。

第四,战略预见。在大数据时代,数据同石油能源一样,被认为是一种重要的战略资源。对大规模数据的处理和存储最初是来源于军事需要。在第二次世界大战时期,英国人研发了能处理大规模数据(虽然现在看起来是小规模的数据)的计算机来处理截获的德国的军事密报,即图灵机,这是当代计算机的起源。冷战时期,兰德公司将大规模数据和理论系统相结合,通过仿真模拟、沙盘推演来实现战略预见的目的。在美国“9.11”事件发生之后,美国政府就通过对大数据的挖掘来查找、甄别恐怖分子。尽管当时的数据挖掘技术提升了美国的战略预见能力,但日常的生产生活数据却被泄露出去,个人隐私受到了严重的威胁,所以在这次全面排查之后,美国在大数据挖掘方面采取了谨慎的态度。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈