分布式计算引擎MapReduce

2019年4月25日 136次阅读来源: MapReduce

应用场景

当数据量大到一定程度，传统的技术无法进行解决的时候，那么需要采用分布式计算引擎MapReduce来尝试解决了！

操作步骤

1. 架构图

Hadoop是由Apache基金会所开发的分布式系统基础架构，组织架构如下图所示：

《分布式计算引擎MapReduce》

正如上图所示：Hadoop包含很多优秀的子项目，例如HDFS，Mapreduce，Hbase，Hive，Zookeeper等，其中最重要的，也是Hadoop当时风靡一时的原因是HDFS（分布式文件系统）和Mapreduce（分布式计算框架）。HDFS解释了，hadoop如何解决大数据的存储问题，而Mapreduce解释了，hadoop如何对大数据的计算问题。

2. MapReduce

把大量的数据放到了HDFS上，接下去如何对大数据进行分析，需要Hadoop的另一个核心技术，MapReduce。
Mapreduce是一种编程模型，是一种编程方法，抽象理论。MapReduce相当的抽象，还是用通俗的话来说比较好。比如，现在要做一份洋葱辣椒酱，当然取一个洋葱，把它切碎，然后拌入盐和水，最后放进混合研磨机里研磨。这样就能得到洋葱辣椒酱了。那现在要用薄荷、洋葱、番茄、辣椒、大蒜弄一瓶混合辣椒酱，我们会取薄荷叶一撮，洋葱一个，番茄一个，辣椒一根，大蒜一根，切碎后加入适量的盐和水，再放入混合研磨机里研磨，这样就可以得到一瓶混合辣椒酱了。
这其实和MapReduce是一个道理，Map和Reduce其实是两种操作，Map（映射）: 把洋葱、番茄、辣椒和大蒜切碎，是各自作用在这些物体上的一个Map操作。所以你给Map一个洋葱，Map就会把洋葱切碎。
同样的，你把辣椒，大蒜和番茄一一地拿给Map，你也会得到各种碎块。所以，当你在切像洋葱这样的蔬菜时，你执行就是一个Map操作。
Map操作适用于每一种蔬菜，它会相应地生产出一种或多种碎块，在我们的例子中生产的是蔬菜块。在Map操作中可能会出现有个洋葱坏掉了的情况，你只要把坏洋葱丢了就行了。所以，如果出现坏洋葱了，Map操作就会过滤掉坏洋葱而不会生产出任何的坏洋葱块。Reduce（化简）:在这一阶段，你将各种蔬菜碎都放入研磨机里进行研磨，你就可以得到一瓶辣椒酱了。这意味要制成一瓶辣椒酱，你得研磨所有的原料。因此，研磨机通常将map操作的蔬菜碎聚集在了一起。
mapreduce操作过程如下图所示：

《分布式计算引擎MapReduce》

一切都是从最上方的user program开始的，user program链接了MapReduce库，实现了最基本的Map函数和Reduce函数。图中执行的顺序都用数字标记了。
1.MapReduce库先把user program的输入文件划分为M份（M为用户定义），每一份通常有16MB到64MB，如图左方所示分成了split0~4；然后使用fork将用户进程拷贝到集群内其它机器上。
2.user program的副本中有一个称为master，其余称为worker，master是负责调度的，为空闲worker分配作业（Map作业或者Reduce作业），worker的数量也是可以由用户指定的。
3.被分配了Map作业的worker，开始读取对应分片的输入数据，Map作业数量是由M决定的，和split一一对应；Map作业从输入数据中抽取出键值对，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对被缓存在内存中。
4.缓存的中间键值对会被定期写入本地磁盘，而且被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业；这些中间键值对的位置会被通报给master，master负责将信息转发给Reduce worker。
5.master通知分配了Reduce作业的worker它负责的分区在什么位置（肯定不止一个地方，每个Map作业产生的中间键值对都可能映射到所有R个不同分区），当Reduce worker把所有它负责的中间键值对都读过来后，先对它们进行排序，使得相同键的键值对聚集在一起。因为不同的键可能会映射到同一个分区也就是同一个Reduce作业（谁让分区少呢），所以排序是必须的。
6.reduce worker遍历排序后的中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。
7.当所有的Map和Reduce作业都完成了，master唤醒正版的user program，MapReduce函数调用返回user program的代码。
有人问：金庸的天龙八部小说里谁出现的次数最多？很多人说是乔峰，是错误的，其实这是一个用mapreduce的很好的例子，先把小说揉碎，揉成一个一个的词组，将人名词组定义为map中的key，value即为出现的次数，然后通过reduce进行归一，统计出现次数最多的人物，统计结果是段誉。结果前十位分别如下：

《分布式计算引擎MapReduce》

    原文作者：MapReduce
    原文地址: https://yq.aliyun.com/articles/625583
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。