在数据处理早期,互联网企业很少,公司数据量也不大,数据存储和处理领域还是关系型数据库(RDBMS)的天下,传统的关系型数据库的思想是过去30 年形成的,致使关系型数据脱颖而出的是Oracle 数据库,全世界的数据库市场几乎被Oracle、IBM 的DB2、Microsoft 的SQL Server 垄断,其他数据库厂商市场份额比较小,后期又出现了一些开源的数据库,例如MySQL、PostgreSQL。
这些数据库主要是面向OLTP (on-line transaction processing,联机事务处理)需求设计开发的,以人机会话应用为主。以上这些数据库底层设计存储格式都是行存储,比较适合面向业务、数据频繁的增删改操作,但对于统计类的分析查询,行存储效率低下,当数据量达到千万级别量级时,复杂的SQL 业务查询明显效率低下。
随着时间推移,互联网时代的到来,尤其是移动互联网的出现和发展,数据来源不再像传统数据一样,而是通过设备、服务器、应用等自动产生,例如手机、平板电脑终端产生的数据,以及大型集群收集的用户日志信息等。同时,传统行业数据量也在增长,互联网的数据样式多样,呈现结构化、半结构化及非结构化展现。总之,互联网时代的数据目前呈现出指数级别增长,这些数据涵盖各行各业,例如基因数据、教育数据、导航数据、卫星图片数据、气象数据、医疗数据等。
所谓的大数据应用,就是针对上述数据进行关联、交叉分析、比对,对数据进行深层次挖掘,例如,对数据进行即席查询、从非结构数据中提取关键信息、对半结构化的数据进行内容检索及复杂的计算分析等。针对以上数据业务要求的处理,传统的关系型数据库无论是在存储还是在业务分析功能上,都已经束手无策,这样的环境下就促使了类似Hadoop 大数据技术的诞生,例如Hadoop 生态圈中的HBase NoSQL 分布式数据库、Hadoop 生态圈中的Hive 数据仓库。
针对互联网大数据时代的数据处理压力,后期出现了很多类似于Hadoop 生态圈中HBase 的存储技术,这些技术都有一些共性:硬件基于服务器,存储基于服务器自身的磁盘,操作系统主要是Linux,架构是基于大规模分布式计算且具有极高的横向扩展能力,除此之外,还提供故障容错及数据高可用保证机制。总体来看,大数据处理技术进入了新的阶段,这里的主要原因是传统的数据库技术及分析能力不能满足当前数据存储分析需求。目前大数据存储技术路线最典型的有如下三种。
1.大数据一体机(www.xing528.com)
这种是专为大数据存储分析处理而设计的软件、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统组成,同时,内部集成了为数据查询、处理分析预先安装及优化的软件。大数据一体机有良好的稳定性和纵向扩展能力。
2.采用MPP 架构的数据库集群
MPP(Massively Parallel Processing,大规模并行处理)数据库集群重点是面向行业大数据,采用Shared Nothing 架构,通过列式存储、粗粒度索引,并结合大规模并行处理的高效的计算模式,完成对数据的分析。这类集群主要运行在低成本的PC 机上,具有高性能和可扩展的特点,主要是针对结构化的数据进行存储和分析,相对于传统数据库技术来说,可以支撑PB 级别的数据分析。
3.基于Hadoop 生态圈技术扩展和封装
这类技术主要是基于Hadoop 生态技术衍生出来的,主要应对传统关系型数据库较难处理的数据和场景,例如对非结构化数据的存储及分析。目前最典型的应用场景就是通过扩展和封装Hadoop 来实现大数据的存储分析,这类技术比较适用于非结构化数据处理、半结构化数据处理、复杂的ETL 流程处理、数据挖掘等场景。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。