【摘要】:在大多数情况下,分析任务都会涉及数据集中的大部分数据,因此,HDFS 的设计初衷是用于批处理,而不是用于用户交互,所有其重点在于数据访问的高吞吐量,而不是数据访问低延迟性。在实际情况下集群中组件的故障率很低,这使得HDFS 的某些组件始终无法运行。因此,检测故障并快速、自动地从故障中恢复是HDFS 的核心目标。
(1)大数据处理
运行在HDFS 上的数据规模一般都是GB 级别或TB 级别,甚至是PB级别的数据。这不仅要求HDFS 具备处理超大型规模数据的能力,而且能支持集群的节点数为上千个,且每个节点处理文件数量能达到百万级别。
(2)流式数据访问
在HDFS 上运行的应用程序需要对其数据集进行流式访问。在大多数情况下,分析任务都会涉及数据集中的大部分数据,因此,HDFS 的设计初衷是用于批处理,而不是用于用户交互,所有其重点在于数据访问的高吞吐量,而不是数据访问低延迟性。流式的数据访问提高了数据访问的高吞吐量,增强了HDFS 的性能。
(3)高容错性(www.xing528.com)
由于HDFS 是分布式存储架构,因此该系统下存在很多节点。而节点与节点之间的数据会自动保存多个副本,通过增加副本的方式提高容错性,且每个节点服务器都存储文件系统数据的一部分。如果节点损坏或副本丢失,其数据会自动恢复。
除此之外,该系统可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,NameNode也可以感知,将数据分发和备份到相应的节点上。
(4)检测和快速应对硬件故障
HDFS 实例包含数百或数千个服务器计算机,每个服务器计算机都存储文件系统数据的一部分。在实际情况下集群中组件的故障率很低,这使得HDFS 的某些组件始终无法运行。因此,检测故障并快速、自动地从故障中恢复是HDFS 的核心目标。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。