目前大数据技术主要包括几个方面:大数据采集技术、大数据预处理技术、大数据存储及管理技术、大数据分析及挖掘技术和数据可视化技术。
(1)大数据采集技术
数据采集主要通过Web、应用、传感器等方式获得各种类型的结构化、半结构化及非结构化数据,难点在于采集量大且数据类型繁多。采集网络数据可以通过网络爬虫或者API 的方式来获取。对于系统管理员来说,系统日志对于管理有重要意义,很多互联网企业都有自己的海量数据收集工具,用于系统日志的收集,能满足每秒数百MB 的日志数据采集和传输需求。例如:Hadoop 的Chukwa、Flume,Facebook 的Scribe 等。
(2)大数据预处理技术
大数据的预处理包括对数据的抽取和清洗等方面。由于大数据的数据类型是多样化的,不利于快速分析处理,数据抽取过程可以将数据转化为单一的或者便于处理的数据结构。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,可以将数据集中的残缺数据、错误数据和重复数据筛选出来并丢弃。常用的数据清洗工具有DataWrangler、GoogleRefine 等。
(3)大数据存储及管理技术(www.xing528.com)
大数据的存储及管理与传统数据相比,难点在于数据量大、数据类型多,文件大小可能超过单个磁盘容量。企业要解决这些问题,实现对结构化、半结构化、非结构化海量数据的存储与管理,可以综合利用分布式文件系统、数据仓库、关系型数据库、非关系型数据库等技术。常用的分布式文件系统有Google 的GFS、Hadoop 的HDFS、SUN 公司的Lustre 等。
(4)大数据分析挖掘技术
数据挖掘是从大量复杂的数据中提取信息,通过处理分析海量数据发现价值。大数据平台通过不同的计算框架执行计算任务,实现数据分析和挖掘的目的。常用的分布式计算框架有MapReduce、Storm 和Spark 等。其中MapReduce 适用于复杂的批量离线数据处理;Storm 适用于流式数据的实时处理;Spark 基于内存计算,具有多个组件,应用范围较广。
(5)数据可视化技术
数据可视化是指将数据以图形图像形式表示,向用户清楚有效地传达信息的过程。通过数据可视化技术,可以生成实时的图表,它能对数据的生成和变化进行观察、跟踪,也可以形成静态的多维报表以发现数据中不同变量的潜在联系。常用的可视化工具有Tableau、Wordle、Gephi 等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。