首页 理论教育 云计算集群硬件配置-云计算原理与技术

云计算集群硬件配置-云计算原理与技术

时间:2023-10-29 理论教育 版权反馈
【摘要】:用户如果用Spark Cluster的形式来处理大数据,集群硬件配置则较高。1)内存的配置虽然Spark是基于内存的迭代计算框架,但对内存的要求并不高,8 GB即可,这和Spark Cluster要处理的数据量大小有关。2)CPU的配置当内存足够大时,CPU内核数量将制约运算速度。对于目前的服务器级别来说,CPU的配置一般在16核以上,才能满足Spark的运行要求。Spark官方推荐为每一个节点配置4~8块磁盘,并且不需要为RAID。

云计算集群硬件配置-云计算原理与技术

用户如果用Spark Cluster的形式来处理大数据,集群硬件配置则较高。

1)内存的配置

虽然Spark是基于内存的迭代计算框架,但对内存的要求并不高,8 GB即可,这和Spark Cluster要处理的数据量大小有关。一般情况下,内存量越大越好,但JVM对超大内存的管理存在问题,内存太大可能需要特殊的配置,考虑到系统运行需要耗费内存,并且需要为Application的运行预留一些缓冲区,一般情况下为Spark应用分配的空间是75%的内存空间,如果需要处理超大规模的数据,则可以设置数据集的存储级别,以此来保证内存的高效实用。

2)CPU的配置

当内存足够大时,CPU内核数量将制约运算速度。Spark实现的是线程之间的最小共享,可以支持一台机器扩展之数十个的CPU核。对于目前的服务器级别来说,CPU的配置一般在16核以上,才能满足Spark的运行要求。(www.xing528.com)

3)网络的配置

在混合型的大数据处理平台部署Spark Cluster,很难满足Spark低延迟的需求,可以将Spark Cluster部署在10 GB以上的网络带宽的局域网中,或者网络中拥有专用的大数据传输设备。

4)存储的配置

从目前的硬件发展来看,存储硬盘的价格越来越低廉,性能越来越高,借助一些大数据的存储方案,存储已经不是大数据处理的瓶颈。虽然Spark能够在内存中执行大量计算,但它仍然需要本地硬盘作为部分数据的存储。Spark官方推荐为每一个节点配置4~8块磁盘,并且不需要为RAID。另外,Spark Cluster存储本地化可以通过配置Spark.local.dir来指定磁盘列表。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈