Hadoop 源码学习笔记(1)--前言和目录

2019年6月8日 203次阅读来源: kifile

《Hadoop 源码学习笔记(1)--前言和目录》 Hadoop

前言

说到分布式软件，就一定绕不过Hadoop。

Hadoop 是 Google 著名的 MapReduce 和 GFS 论文的开源实现，它为我们提供了一个分布式的数据存储和计算框架，能够让我们在低成本的PC设备上搭建一个大规模的分布式数据存储系统。

由于Hadoop的出现直接降低了大数据的存储和计算成本，可以说Hadoop以及他的整个生态环境拉开了大数据时代的大幕。

Hadoop主要由 Hdfs, MapReduce 和 Yarn 三个大模块组成，我会基于 Hadoop 3.0.0 alpha2 的源码，分别解析一下这三个模块的代码逻辑。

具体章节划分如下，先从Hdfs开始，每周更新一两篇源码走读笔记。

Hdfs(Hadoop Distributed File System)是Hadoop框架中的分布式存储系统，

主要关注点:

主要章节划分有:

Hadoop中的MapReduce框架负责在分布式系统中进行数据计算，通过将jar文件传输到各个数据节点进行分布式计算的形式，减少不必要的数据传输。

主要关注点:

时间待定，章节待定

Yarn(Yet Another Resource Manager)是Hadoop框架中的资源管理者。

主要关注点:

主要章节划分有:

    原文作者：kifile
    原文地址: https://www.jianshu.com/p/f18f80989679
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。