下面通过四个方面来了解大数据处理技术。
1.云计算和Hadoop简介
大数据的处理需要拥有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑。从某种观点上看,没有计算机的云计算技术,就不会有大数据的分析和利用。
云计算的核心思想是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池对用户提供按需服务。云计算关键技术包括虚拟化、分布式存储、分布式计算和多租户等。
云计算的特点主要有以下几点:
①超大规模:如Google云计算已经拥有100多万台服务器。
②虚拟化:云计算应用虚拟化技术,以虚拟机的形式向用户提供资源,并支持用户在任意位置,使用各种终端获取应用服务。
③高可靠性:“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。
④通用性:云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
⑤高可扩展性:“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
⑥按需服务:“云”是一个庞大的资源池,可以让用户按需购买。云服务可以像自来水、电、煤气那样计费。
Hadoop是Apache软件联盟(The Apache Software Foundation)的一个项目,是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由雅虎的Doug Cutting创建,基于Java语言开发,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop的灵感来自Google著名的三篇大数据的论文,分别讲述GFS、Map Reduce、Big Table。
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力,通常运行在Linux平台上。几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等都支持Hadoop。国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群比较大。
2.大数据采集和预处理
数据采集是指从真实世界对象中获得原始数据的过程。常见数据的来源包括对现实世界的测量、人类的记录、计算机生成的数据。比较常用的采集方式为拉和推。
数据预处理是指通过数据预处理工作,可以使残缺的数据完整,并将错误的数据纠正,多余的数据去除,进而将所需的数据挑选出来,并且进行数据集成。常见的预处理方法包括数据变换、不一致检测与修复、缺失值填充、实体识别和真值发现等。(www.xing528.com)
数据集成是把不同来源、格式、性质的数据在逻辑上或物理上有机地集中,通过一种一致的、精确的、可用的表示法,对同一种现实世界中的实体对象的不同数据做整合的过程,从而提供全面的数据共享,经过数据分析,挖掘产生有价值的信息。
3.大数据计算
面向大数据处理的数据查询、统计、分析、挖掘等需求,促生了大数据计算的不同计算模式,常用的大数据计算框架有两种:离线批处理计算及实时流式处理计算。
离线批处理适用于数据在计算之前已经完全到位,不会发生变化,数据量巨大且保存时间长,在大量数据上进行复杂的批量运算。Hadoop的Map Reduce编程模型是最常见的一种批处理框架。Map Reduce分为Map阶段和Reduce阶段,能够很好地解决离线处理中需要进行大量计算的要求。
在很多实时应用场景中,比如实时交易系统、实时诈骗分析、实时广告推送、实时监控、社交网络实时分析等,实时性要求高,而且数据源是实时不间断的。新到的数据必须马上处理完,否则后续的数据就会堆积起来,永远也处理不完。反应时间经常要求在秒级以下,甚至是毫秒级,这就需要一个高度可扩展的流式计算解决方案。
大数据流式计算的三种框架为Spark、Storm和Samza。
4.大数据分析
大数据分析主要包括以下六种:
①数据描述性分析:数据描述性分析关注描述一组数据的统计特征,帮助人们了解数据分布特征,以及分散性和关联性等数字特征。典型的统计指标包括均值、方差、中位数、分位数等。
②数据挖掘和机器学习算法:包括分类算法、聚类算法、关联规则算法、PageRank算法、人工神经网络和深度学习方法、统计机器学习方法等。
③预测分析:预测分析法是根据客观对象的已知信息而对事物在将来的某些特征、发展状况的一种估计、测算活动。典型的算法包括回归分析、时间序列预测法和因果关系预测。
④推荐系统:根据用户的兴趣特点和购买行为,向用户推荐感兴趣的信息和商品。典型的算法包括协同过滤算法、基于内容的过滤算法和基于关联规则的推荐算法。
⑤社会网络分析:用来建立社会关系的模型,发现群体内行动者之间的社会关系,描述社会关系的结构,研究这种结构对群体功能或群体内部个体的影响。典型的应用包括社会舆情分析、网络社区发现、情感分析等。
⑥数据可视化:指利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化是理解、探索、分析大数据的重要手段。数据可视化工具的类型包括图表生成工具、可视化报表、商业智能分析、地图类和数据挖掘编程语言等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。