首页 理论教育 大数据定义与处理技术

大数据定义与处理技术

时间:2023-07-06 理论教育 版权反馈
【摘要】:同时强调,并不是说一定要超过特定TB 级的数据集才能算是大数据。这是某一研究给出的关于大数据的定义。大数据作为信息金矿,对其采集、传输、处理和应用的相关技术就是大数据处理技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理技术,简称大数据技术。

大数据定义与处理技术

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。该公司在《大数据:创新、竞争和生产力的下一个前沿领域》报告中称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”其对大数据的定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。同时强调,并不是说一定要超过特定TB 级的数据集才能算是大数据。大数据是云计算、物联网之后行业又一大颠覆性的技术革命。

(一)大数据定义

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这是某一研究给出的关于大数据的定义。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

总的来说,大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

(二)大数据的来源

大数据集通常是PB 或EB 的大小,这些数据集有各种各样的来源,包括传感器、气候信息、公开的信息等,如杂志、报纸、文章,还包括购买交易记录、网络日志、病历、军事监控、视频和图像档案,及大型电子商务等。当前,根据来源不同,大数据大致分为如下几种类型:

1.来自人类活动

人们通过社会网络、互联网健康金融经济交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等信息。

2.来自计算机

各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息。

3.来自物理世界

各类数字设备、科学实验与观察所采集的数据,如摄像头所不断产生的数字信号,医疗物联网不断产生的人的各项特征值,气象业务系统采集设备所收集的海量数据等。

(三)大数据的特点

1.数据体量巨大

百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5000亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。

2.数据类型多样

现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。(www.xing528.com)

3.处理速度快

数据处理遵循“1 秒定律”,可从各种类型的数据中快速获得高价值的信息。

4.价值密度低

以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。

(四)大数据的作用

1.对大数据的处理分析正成为新一代信息技术融合应用的结点

移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。

大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境

2.大数据是信息产业持续高速增长的新引擎

面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。

3.大数据利用将成为提高核心竞争力的关键因素

各行各业的决策正在从“业务驱动”转变“数据驱动”。对大数据的分析,可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略以提供决策支持;可以帮助企业为消费者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。

4.大数据时代科学研究的方法手段将发生重大改变

例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。

(五)大数据技术

大数据处理技术正在改变当前计算机的运行模式,正在改变着这个世界。它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其他形态的数据,它实时、高效、可视化呈现结果。它依托云计算将计算任务分布在大量计算机构成的廉价的资源池上,使用户能够按需获取计算资源、存储资源、网络资源和信息服务。云计算技术的应用使得大数据处理和利用成为可能。大数据作为信息金矿,对其采集、传输、处理和应用的相关技术就是大数据处理技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理技术,简称大数据技术。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈