NIUCLOUD是一款SaaS管理后台框架多应用插件+云编译。上千名开发者、服务商正在积极拥抱开发者生态。欢迎开发者们免费入驻。一起助力发展! 广告
**1. 为什么需要Shuffle** 因为需要将具有某种共同特征的一类数据汇聚到一个节点上进行计算。 <br/> **2. 什么是Shuffle** 与 MapReduce 的 Shuffle 类似,即在分区之间重新分配数据,将数据打乱重新汇聚到不同节点的过程。 <br/> map、flatMap等窄依赖算子不需要在分区之间,或节点之间进行数据传输,所以没有产生Shuffle过程;而向reduceByKey这样的宽依赖算子,需要将所有相同的key进行聚合,所以是需要在各个分区,或节点之间传输数据的,所以会产生Shuffle过程。