首页 理论教育 Hadoop简介与概述

Hadoop简介与概述

时间:2023-06-24 理论教育 版权反馈
【摘要】:Hadoop 的由来Apache Hadoop 项目是一款可靠、可扩展的分布式计算开源软件。因此用户可以轻松地搭建和使用Hadoop 分布式计算框架,并充分地利用集群的运算和存储能力,完成海量数据的计算与存储。2005 年,Hadoop 作为Lucene 的子项目Nutch的一部分正式引入Apache 基金会。由于NDFS 和MapReduce 在Nutch 引擎中有着很好的应用,2006 年2 月该模块被分离出来,成为一套完整独立的软件,起名为“Hadoop”。到了2008年初,Hadoop 已经成为Apache 的顶级项目,包含众多的子项目。

Hadoop简介与概述

(1)Hadoop 的由来

Apache Hadoop 项目是一款可靠、可扩展的分布式计算开源软件。Hadoop 软件库是一个框架,该框架的两个核心模块是分布式文件系统(Hadoop Distribution File System,HDFS)和数据计算MapReduce(Google MapReduce 的开源实现)。MapReduce 允许用户在不了解分布式系统底层知识的情况下,以可靠、容错的方式灵活地并行处理大型计算机集群(数千个节点)上的大量数据;HDFS 是一种运行在计算机上的分布式文件系统,它允许用户对数据进行分布式的存储与读取,其高容错性和高伸缩性的特点使得HDFS 可以部署在低成本的硬件上。因此用户可以轻松地搭建和使用Hadoop 分布式计算框架,并充分地利用集群的运算和存储能力,完成海量数据的计算与存储。

(2)Hadoop 的发展历史(www.xing528.com)

2003—2004 年,Google 公布了部分GFS 和MapReduce 思想的细节,在“操作系统设计与实现”(Operating System Design and Implementation,OSDI)会议上公开发表了题为《MapReduce:简化大规模集群上的数据处理》的论文后,受此启发的Doug Cutting 等人用两年的业余时间实现了DFS 和MapReduce 机制,使Nutch 性能飙升。2005 年,Hadoop 作为Lucene 的子项目Nutch的一部分正式引入Apache 基金会。由于NDFS 和MapReduce 在Nutch 引擎中有着很好的应用,2006 年2 月该模块被分离出来,成为一套完整独立的软件,起名为“Hadoop”。到了2008年初,Hadoop 已经成为Apache 的顶级项目,包含众多的子项目。比如:可扩展的分布式数据库(HBase)、一种用于Hadoop 数据的快速通用计算引擎(Spark)、数据序列化系统(Avro)、没有单点故障的可扩展多主数据库(Cassandra)、一种提供数据汇总和及时查询的数据仓库基础结构(Hive)等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈