深入解析Spark中的Shuffle操作过程

时间：2023-06-21 理论教育版权反馈

【摘要】：下面继续从源码的角度，了解Spark是如何触发Shuffle写和Shuffle读过程的。ResultTask会将计算结果返回给Driver，ShuffleMapTask则将结果传递给Shuffle依赖中的子RDD。接下来便是执行Shuffle写操作，该操作由一个ShuffleWriter实例通过调用write接口完成，ApacheSpark从ShuffleManager实例中获取该ShuffleWriter对象。上文提及过，Spark提供了两类Shuffle机制。对应的，ShuffleManager也有两类子类，分别是HashShuffleManager和SortShuffleManager。ShuffleManager的主要作用是提供ShuffleWriter和ShuffleReader用于Shuffle写和Shuffle读过程。可以看到，哈希Shuffle和排序Shuffle的唯一区别在于Shuffle写过程，读过程完全一致。

下面继续从源码的角度，了解Spark是如何触发Shuffle写和Shuffle读过程的。

mapper本质上是一个任务。7.3调度章节曾提及过DAG调度器会在一个阶段内部划分任务，根据阶段的不同，得到ResultTask和ShuffleMapTask两类任务。ResultTask会将计算结果返回给Driver，ShuffleMapTask则将结果传递给Shuffle依赖中的子RDD。因此，可以从ShuffleMapTask入手，观察Mapper的大致工作流程，实现代码如下。

由于一个任务对应当前阶段末RDD内的一个分区，因此通过rdd.iterator（partition，context）可以计算得到该分区的数据。接下来便是执行Shuffle写操作，该操作由一个ShuffleWriter实例通过调用write接口完成，ApacheSpark从ShuffleManager实例中获取该ShuffleWriter对象。

上文提及过，Spark提供了两类Shuffle机制。对应的，ShuffleManager也有两类子类，分别是HashShuffleManager和SortShuffleManager。ShuffleManager的主要作用是提供ShuffleWriter和ShuffleReader用于Shuffle写和Shuffle读过程。HashShuffleManager提供HashShuffleWriter和HashShuffleReader，而SortShffleManager提供的是SortShuffleWriter和HashShuffleReader。可以看到，哈希Shuffle和排序Shuffle的唯一区别在于Shuffle写过程，读过程完全一致。

继续来观察Shuffle读的触发。Spark中，聚合器中的3个函数是在PairRDDFunctions. combineByKey方法中指定。可以看到，若新RDD与旧RDD的分区器不同时，会生成一个ShuffledRDD，实现代码如下。

观察ShuffledRDD是如何获取分区数据的。与Shuffle写过程类似，先从ShuffleManager中获取ShuffleReader，通过ShuffleReader的read接口拉取和计算特定分区中的数据，代码如下。

在后面8.2以及8.3小节会进一步分析ShuffleWriter.write和ShuffleReader.read的具体实现。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

深入解析Spark中的Shuffle操作过程

相关推荐

深入解析Spark中的Shuffle操作过程

有关Spark：原理、机制及应用的文章

相关推荐