(一)大数据的发展
1.运营式系统阶段
数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,比如超市的销售记录系统、银行的交易记录系统、医院的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统开始广泛使用数据库,这个阶段最主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中。这种数据的产生方式是被动的。
2.用户原创内容阶段
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但是真正的数据爆发产生于Web2.0 时代,而Web2.0 最重要的标志就是用户原创内容。这类数据长期以来持续呈现爆炸性的增长,主要有两方面的原因:首先是以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷,这个阶段数据的产生方式是主动的。
3.感知式系统阶段
人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。
(二)大数据的处理
1.流处理
流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此,尽可能快地对最新的数据做出分析并给出结果是所有流数据处理模式的共同目标。需要采用流数据处理的大数据应用场景,主要有网页点击数的实时统计、传感器网络、金融中的高频交易等。
流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时,就立刻处理并返回所需的结果。 (www.xing528.com)
2.批处理
批处理,也称为批处理脚本。顾名思义,批处理就是对某对象进行批量的处理。大数据管理的核心思想主要是将问题分而治之,把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量问题。
无论是流处理还是批处理,都是大数据处理的可行思路,大数据的应用类型很多,在实际的大数据处理中,常常并不是简单地只使用其中的某一种,而是将二者结合起来。
(三)大数据的分析
大数据的价值产生于分析过程,从异构数据源抽取和集成的数据构成了数据分析的原始数据,根据不同应用的需求可以从这些数据中选择全部或部分进行分析。传统的分析技术,如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临着一些新的挑战。
1.数据量大并不一定意味着数据价值的增加
数据量大并不一定意味着数据价值的增加,相反,这往往意味着数据噪音的增多。因此,在数据分析之前必须进行数据清洗等预处理工作,但是预处理如此大量的数据对于机器硬件以及算法都是严峻的考验。
2.大数据时代的算法需要进行调整
首先,大数据的应用常常具有实时性的特点,算法的准确率不再是大数据应用的最主要指标。很多场景中算法需要在处理的实时性和准确率之间取得一个平衡;其次,云计算是进行大数据处理的有力工具,这就要求很多算法必须做出调整以适应云计算的框架,算法需要变得具有可扩展性;最后,在选择算法处理大数据时必须谨慎。当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法并不一定适用于大数据。
3.数据结果好坏的衡量
数据结果好坏的衡量也是数据分析面临的一个重要问题。得到分析结果并不难,但是结果好坏的衡量却是大数据时代数据分析的新挑战。大数据时代的数据量大、类型庞杂,进行分析时往往对整个数据的分布特点掌握得不太清楚,这会导致最后在设计衡量的方法以及指标时遇到诸多困难。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。