改进方案效果比较：ALS在Hadoop和Spark平台的对比分析

时间：2023-06-21 理论教育版权反馈

【摘要】：下面我们来了解上述解决方案的实现效果。在方案实现过程中，测试数据集包含200万用户和50万艺术家，所有的Job使用40个潜在变量，Spark的Job使用8GB的容器执行200个Executor。Hadoop Job使用1000个mapper和300个reducer。表9-2 ALS在Hadoop和Spark平台运行时间对比表中halfgridify是算法的改进版，同样是在Spark上运行。

上述解决方案提到在迭代次数较多的模型中，Spark架构的处理效率相比Hadoop架构来说更加高效。下面我们来了解上述解决方案的实现效果。这里只针对ALS算法的运行时间来对比Spark平台和Hadoop平台。

在方案实现过程中，测试数据集包含200万用户和50万艺术家，所有的Job使用40个潜在变量，Spark的Job使用8GB的容器执行200个Executor。Hadoop Job使用1000个mapper和300个reducer。

不同平台上运行ALS算法的时间对比如表9-2所示。由表中看出，在Spark平台运行相同的算法，运行时间大约是Hadoop运行时间的1/3。

表9-2 ALS在Hadoop和Spark平台运行时间对比

(www.xing528.com)

表中halfgridify是算法的改进版，同样是在Spark上运行。

表9-3是在Hadoop和Spark平台运行ALS算法的运行时间，从中可以看出，在相同集群条件下，Spark上运行的MLlib算法比Mahout^[4]上运行相同算法有数量级的速度提升，相比在GraphLab^[5]上的运行时间要慢1倍左右。

表9-3 ALS（交替最小二乘法）在不同平台的运行时间

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

改进方案效果比较：ALS在Hadoop和Spark平台的对比分析

相关推荐

改进方案效果比较：ALS在Hadoop和Spark平台的对比分析

有关Spark：原理、机制及应用的文章

相关推荐