combiner、partition的作用 · 要努力

## 简述MapReduce中combiner、partition的作用。 combiner：有时一个map可能会产生大量的输出，combiner的作用是在map端对输出先做一次合并，以减少网络传输到reducer的数量。注意：mapper的输出为combiner的输入，reducer的输入为combiner的输出。 partition：把map任务输出的中间结果按照key的范围划分成R份(R是预先定义的reduce任务的个数)，划分时通常使用hash函数，如：hash(key) mod R。这样可以保证一段范围内的key，一定会由一个reduce任务来处理。 ## 9、请简述mapreduce中，combiner，partition作用？ --在MapReduce整个过程中，combiner是可有可无的，需要是自己的情况而定，如果只是单纯的对map输出的key-value进行一个统计，则不需要进行combiner，combiner相当于提前做了一个reduce的工作，减轻了reduce端的压力， Combiner只应该适用于那种Reduce的输入（key：value与输出（key：value）类型完全一致，且不影响最终结果的场景。比如累加，最大值等，也可以用于过滤数据，在 map端将无效的数据过滤掉。在这些需求场景下，输出的数据是可以根据key值来作合并的，合并的目的是减少输出的数据量，减少IO的读写，减少网络传输,以提高MR的作业效率。 1.combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量. 2.combiner最基本是实现本地key的归并,具有类似本地reduce,那么所有的结果都是reduce完成,效率会相对降低。 3.使用combiner,先完成的map会在本地聚合,提升速度. --partition意思为分开，分区。它分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。其实可以理解归类。也可以理解为根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理 partition的作用就是把这些数据归类。每个map任务会针对输出进行分区，及对每一个reduce任务建立一个分区。划分分区由用户定义的partition函数控制，默认使用哈希函数来划分分区。 HashPartitioner是mapreduce的默认partitioner。计算方法是 which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks，得到当前的目的reducer。