map 数量和 reduce 数量 · 要努力

## 7 如何决定一个job的map和reduce的数量? splitSize=max{minSize,min{maxSize,blockSize}} map数量由处理的数据分成的block数量决定`default_num = total_size / split_size`; reduce的数量job.setNumReduceTasks(x);x 为reduce的数量. ## Mapreduce 的 map 数量和 reduce 数量怎么确定 , 怎么配置？ map数量由处理数据分成的block数量决定。default\_num = total\_size / split\_size; reduce的数量由job.setNumReduceTasks(x),x为设定的reduce数量。不设置的话默认为1 ## 如何为一个Hadoop任务设置mappers的数量？具体的数据分片是这样的，InputFormat在默认情况下会根据hadoop集群HDFS块大小进行分片，每一个分片会由一个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks，这个参数设置的map数量仅仅是一个提示，只有当InputFormat决定了map任务的个数比mapred.map.tasks值小时才起作用。同样，Map任务的个数也能通过使用JobConf的conf.setNumMapTasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数，但是不能设定任务的个数小于Hadoop系统通过分割输入数据得到的值。 ## 如何为一个Hadoop任务设置要创建的 reducer的数量？纯粹的 mapreduce task 的 reduce task 数很简单，就是参数 mapred.reduce.tasks 的值，hadoop-site.xml 文件中和 mapreduce job 运行时。不设置的话默认为 1。怎样快速的杀死一个job？