ThinkChat🤖让你学习和工作更高效,注册即送10W Token,即刻开启你的AI之旅 广告
## 会导致shuffle的算子 1、byKey类的算子:比如reduceByKey、groupByKey、sortByKey、aggregateByKey、combineByKey 2、repartition类的算子:比如repartition(少量分区变成多个分区会发生shuffle)、repartitionAndSortWithinPartitions、coalesce(需要指定是否发生shuffle)、partitionBy 3、join类的算子:比如join(先groupByKey后再join就不会发生shuffle)、cogroup 注意:首先对于上述操作,能不用shuffle操作,就尽量不用,尽量使用不发生shuffle的操作。 其次,如果使用了shuffle操作,那么肯定要进行shuffle的调优,甚至是解决遇到的数据倾斜问题。