MapReduce shuffle过程浅析

2019年5月9日 150次阅读来源: 心_的方向

《MapReduce shuffle过程浅析》 Paste_Image.png

partition
- 过程：输入的<key,value>对经过map()处理后输出新的<key,value>对，它首先会被存储到环形缓冲区中(字节数组实现)。该环形缓冲区的大小默认为100MB。并且会对每个<key,value>对hash一个partition值，相同partition值为同一个分区。
- 作用：由于map()处理后的数据量可能会非常大，所以如果由一个reduce()处理效率不高，为了解决这个问题可以用分布式的思想，一个reduce()解决不了，就用多个reduce节点。一般来说有几类分区就对应有几个reduce节点，把相同分区交给一个reduce节点处理。
- 设置
  - 环形缓冲区大小:mapred-site.xml中设置mapreduce.task.io.sort.mb的值
  - 环形缓冲区溢写的阈值:mapred-site.xml中设置mapreduce.map.sort.spill.percent的值
  - partition:job.setPartitionerClass(cls)
    Paste_Image.png
sort
- 过程:把环形缓冲区中的数据根据partition值和key值两个关键字升序排序。同一partition内的按照key排序。
- 作用:一般来讲mapreduce框架用来做各种排序操作，先在map端排序，减少reduce端排序的负担。
- 设置:job.setSortComparatorClass(cls)
  Paste_Image.png

combiner
- 过程:将sort后的数据进行combiner操作
- 作用:可以理解为map端的预reduce操作，在数据量非常大的时候，这样的优化可以节省很多网络带宽和本地磁盘IO流的读写。
- 设置:job.setCombinerClass(cls)
  Paste_Image.png

compress
- 过程:压缩combiner输出后的数据
- 作用:减少本地磁盘的读写和减少reduce拷贝map端数据时的网络带宽
- 设置
  1. Configuration对象用来解析XML文件，可以用set方法来设置属性值。
    Paste_Image.png
  2. 寻找要设置的相关属性
    compress.png
  3. 内置的三种压缩算法
    compresssuanfa.png
  4. 配置key,value
    peizhi.png
spill
- 过程:将排序后的内存数据spill到本地磁盘中
- 作用:因为数据量非常大，全部存放在内存中不太现实，所以最后还是会存到本地磁盘中
merge
- 过程:因为可能会有几次spill，本身存放数据的out文件和存放数据偏移量索引index文件都会产生多个，把多个这样的文件合并。
- 作用:方便reduce的一次性拷贝。
- 设置:
  mapsort.png

merge
- 过程:reduce拷贝map()最终输出的磁盘数据，一个reduce应该拷贝每个map节点的相同partition的数据。
- 作用:因为有多个map节点，拷贝后的数据文件不止一份，先进性合并操作，为后面的排序做准备。
sort
- 过程、作用:这里和map端的一样。
group
- 过程:将排序好的<key,value>对进行分组，分组规则默认的是将相同key的value放在一起。
  fenzu.png
- 作用:为了reduce()更好的计算相同key值出现的次数。
- 设置:job.setGroupingComparatorClass(cls);
  比较2.png

压缩配置见map过程
设置reduce的数目
job.setNumReduceTasks(tasks);其中tasks为int型整数。合理的设置reduce数目是一种性能调优，实际生产环境中最好用测试的方式来抉择较好的reduce数目

    原文作者：心_的方向
    原文地址: https://www.jianshu.com/p/fc36464f4c6d
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。