【摘要】:Hadoop的开发方式基于分布式文件系统,其在很大程度上是为各种分布式计算需求所服务的。Hadoop将分布式文件系统推广到分布式计算上,所以我们可以将其视为增加了分布式支持的计算函数。其开发方式可归纳为以下3点。
Hadoop的开发方式基于分布式文件系统,其在很大程度上是为各种分布式计算需求所服务的。Hadoop将分布式文件系统推广到分布式计算上,所以我们可以将其视为增加了分布式支持的计算函数。其开发方式可归纳为以下3点。
5.3.2.1 数据分布存储
HDFS是Hadoop框架的分布式并行文件系统,是分布式计算的存储基石。它负责数据分布式存储及数据的管理,并能提供高吞吐量的数据访问,文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会有复制的文件块来保证数据安全性。
5.3.2.2 并行计算(www.xing528.com)
并行计算是相对于串行计算来说的。可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。并行计算的目的就是提供单处理器无法提供的性能(处理器能力或存储器),使用多处理器求解单个问题。分布式计算是研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。Hadoop中的MapReduce将计算作业分成许多小的单元,同时数据也会被HDFS分为多个数据块,并且每个数据块被复制多份,保证系统的可靠性,HDFS按照一定的规则将数据块放置在集群中的不同机器上,以便MapReduce在数据宿主机器上进行计算。
5.3.2.3 结果输出
数据存储在哪台计算机上,就由哪台计算机进行计算,最后将分解后多任务处理的结果汇总起来,对计算结果进行排序输出。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。