Hadoop分布式计算框架MapReduce

分布式计算框架有很多,只是适合做的种类不一样

1、MapReduce适合做离线计算
2、storm适合做流式计算,更适合实时计算
3、spark是内存式计算框架,更适合做快速得到结果的计算

MapReduce设计理念

一、何为分布式计算。
移动计算,而不是移动数据。

把计算程序都进行部署到不同的机器上,然后在不同的机器上进行计算,然后进行汇总,做到不移动计算的数据,也能得到计算结果

MR(MapReduce)计算框架图解

《Hadoop分布式计算框架MapReduce》 Paste_Image.png

解决大数据的问题:解决两个问题
1、数据存储(HDFS)
2、数据计算(MapReduce)

首先对数据进行处理split为每一个数据片段,每一数据片段都会有一个map线程去执行,如果有多个片段会并发的同时执行。

所以:如上图:
第一个步骤是:如何把数据切片,按照什么规则去切分。
第二个步骤是:就是map部分
第三个步骤是shuffle部分
第四个部分是 reduce部分
第五个部分就是 输出部分(计算生成的数据,也是保存在HDFS上)

整个MR过程就是:就是把HDFS数据进行计算处理,然后输出结果

实例MR计算

《Hadoop分布式计算框架MapReduce》 Paste_Image.png

如上:
步骤一:splitting
步骤二:Mapping
步骤三:Shuffling
步骤四:Reduceing
步骤五:Final result

在shuffling阶段会有相应的合并和排序
有可能reduce为一个或者多个,这个是由程序去决定

hadoop计算框架Shuffler

Shuffer的功能

在mapper 和reducer中间的一个步骤
可以把mapper的输出按照某种key值重新切分和组合成n份,把key值符合某种范围的输出送到特定的reducer那里
可以简化reducer过程

《Hadoop分布式计算框架MapReduce》 QQ20160815-0@2x.png

如上图:

map过程

map是一个Java程序,或者其他计算机程序,map得到的结果在内存中, 内存有一定的阈值,当到达一定的阈值后,就需要写入到磁盘中, 这个过程叫做溢写。

在写入之前要做几件事情,partion和sort。把当前map的数据进行输出和排序,然后再溢写到磁盘。放在磁盘中的数据是已经排好序的数据。

什么是partition?

partition分区的数据是为以后产生作用的。把map的输出数据分成一个一个区,partition可以由程序员自定义编写代码。如果不写按照默认的分区模式进行分区,默认的分区模式是什么呢? Hash模运算
1、获取hash值,每个对象的hash值得到一个整数,把这个整数模reduce的个数,得到一个结果。假如:hash模2,只有两种结果0或者1,然后map的结果分成了两个部分,0区或者1区。

分区有什么作用??? 这是mapredure如何结局负载均衡和数据倾斜?

分区是为了把map的输出进行负载均衡,解决数据倾斜的问题。这样后期通过reduce进行计算的数据就不会有数据倾斜问题,一个计算的过多,一个计算的过少。这就是分区的作用。

map为什么不会数据倾斜???
map的数据是切片,每一片的大小相等,所以map的输入数据不会出现数据倾斜的问题。

sort
sort也有默认的的sort。默认的sort是按照ascii进行排序的。(即按照字典进行排序的)
为什么要sort???
定义排序规则

上图中merge on disk什么意思???
每次都会溢写到磁盘中,溢写会按照hash值进行合并,相同hash值放到一起。每一次溢写就会生成一个文件,溢写的次数越多,生成的文件越多,这些文件需要进行合并为一个大的文件,如何合并,就是按照hash值进行合并,这是默认的规则。

合并的目的???
减少map的输出,因为后期reduce会移动map的输出到reduce服务器上,减少map的输出,就会减少网络io的操作,所以很有必要的。

以上是map的处理

reduce过程

map的处理结果落到磁盘以后,然后会进行merge,为什么merge,如果merge???

reduce 的输入数据就是map的输出数据
reduce的数据来源是map输出数据的拷贝
拷贝哪些数据,是根据partition的结果,只拷贝分给对应的reduce的数据

之前分区是按照reduce去模后的值进行分区的,分区以后的数据在copy到reduce所在的机器上,同事进行merge,便于下一步reduce进行处理。

分区就是在把数据拷贝到reduce的时候起作用的

为什么reduce task开始也有merge操作???
因为reduce会从很多的map输出结果中拷贝数据,这样会有很多个小文件,reduce为了计算,就需要对这些小文件进行merge。这就是为什么reduce开始时要进行merge操作。这个合并不是人为控制的,这个会根据key相同的进行合并,是hadoop自有的功能。合并完成以后相同key的数据会进行merge。

两个reduce是可以并发的。

抓重点:
这个过程比较虽然比较复杂,但是有很多部分是hadoop框架已经做的工作,只有一部分需要我们编程实现!!!

哪些部分需要我们编程实现???

1、partition(如何分区)
2、sort 比较(如何比较)
3、比较会进行多次
4、combiner

map中计算框架shuffle过程详解

《Hadoop分布式计算框架MapReduce》 222.png

注意:在map执行之后,立刻进行partition,map的输出结果会分到哪个reduce,这个叫做分区,分区以后放在内存中,在溢写的时候,要执行sort和combiner,sort其实就是比较,默认按照ascii大小进行比较。 combiner可能会没有,所以上副图没有画combiner,这个意思是初次合并。

combiner可以减少map的输出数据,

《Hadoop分布式计算框架MapReduce》 333.png

reduce中关于shuffle过程的详解

《Hadoop分布式计算框架MapReduce》 444.png

MapReduce的Split大小

1、max.split(100M)
2、min.split(10M)
3、block(64M)
如何进行切分,切分大小算法
4、max(min.split,min(max.split,block))
代入如上值为: 64M

    原文作者:topwqp
    原文地址: https://www.jianshu.com/p/4cd29f96c746
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞