从0开始用docker搭建 hadoop分布式环境

2019年5月9日 165次阅读来源: 一只程序员

* 以下命令均是在centos7使用root用户操作

在centos7中安装docker ：

yum install -y docker

启动docker服务：

service docker start

从阿里云的仓库拉取一个具有jdk和hadoop环境的一个基础镜像，当然也可以自己一步一步配置，在这里我就直接拉取一个基础镜像来使用

docker pull registry.cn-hangzhou.aliyuncs.com/kaibb/hadoop

拉取成功后，利用docker image 可以看到拉取的基础镜像已经在电脑里面了镜像.png
接下来通过docker镜像启动三个容器，分别为hadoop0，hadoop1和hadoop2

docker run -it –name hadoop0 -h hadoop0 [拉取的镜像名称] /bin/bash

-i: 以交互模式运行容器，通常与 -t 同时使用；
-t: 为容器重新分配一个伪输入终端，通常与 -i 同时使用；
–name: 为容器指定一个名称；
-h:指定容器的主机名；启动容器.png

现在我么你已经启动了一个docker容器；重复上面操作创建hadoop1和hadoop2
然后在这个容器里面已经安装好了jdk和hadoop ，我们可以利用hadoop version和java -version 查看。
hadoop版本.png jdk版本.png
经过上面的操作后，我们可以使用 ctrl +d 退出容器，回到centos7虚拟机中，使用

docker exec -it 【容器名】/bin/bash

可以启动容器

docker attach 【容器名】也可以启动容器，但是当我们ctrl+d退出容器后。容器就会自动关闭，下次还要用docker start 【容器名】启动容器，所以我们选择上面那条命令启动，然后用docker ps 命令来查看我们当前运行的容器

docker ps

![当前容器.png]@$N@)K~@SMZCN.png

经过以上操作后我们的集群基本环境就好了，接下来我们来配置单个容器hadoop环境
①：先配置SSH，配置无密的SSH

/etc/init.d/ssh start

启动sshd服务
生成密钥

《从0开始用docker搭建 hadoop分布式环境》密钥.png

现在我们生成的密钥存放在/root/.ssh/id_rsa.pub 中

《从0开始用docker搭建 hadoop分布式环境》密钥.png

将密钥写入 /root/.ssh/authorized_keys 中

cat /root/.ssh/id_rsa.pub > /root/.ssh/authorized_keys

《从0开始用docker搭建 hadoop分布式环境》写入密钥.png

写入成功后，使用 ssh localhost 可以登上本机，代表设置成功设置成功.png
将三台机器的密钥全都写入hadoop0的 /root/.ssh/authorized_keys中，
如下图所示：写入三台机器的密钥.png
配置hadoop0的ip与主机名的映射表
首先查看本容器ip地址：

ip addr

《从0开始用docker搭建 hadoop分布式环境》查看ip.png

分别获取到三台机器的IP ，写入下列文件

vim /etc/hosts

《从0开始用docker搭建 hadoop分布式环境》主机名与ip的映射表.png

保存退出后
如果使用ssh hadoop1 命令能够直接登陆到hadoop1 ，说明以上操作成功，那么我们继续下面操作

《从0开始用docker搭建 hadoop分布式环境》配置成功.png

现在我们来配置hadoop运行环境，刚才我们从阿里云仓库拉取的镜像jdk和hadoop均是放在/opt/tools/文件夹下的，然后我们进入到/opt/tools/hadoop/etc/hadoop目录下；
我们需要配置下面几个文件
①：hadoop-env.sh：修改有关java的环境
修改第25行的java环境

export JAVA_HOME=/opt/tools/jdk1.8.0_77

②：配置core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop0:9000</value>
  </property>
<property>
  <name>hadoop.tmp.dir</name>
  <value>/hadoop/tmp</value>
</property>
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
  </property>
</configuration>

fs.defaultFS：表示集群namenode的地址
hadoop.tmp.dir：表示临时文件路径
fs.trash.interval：表示回收站的保留时间（分钟），也即hdfs的文件删除后，在回收站里面保留的时长
③：配置hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/hadoop/data</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/hadoop/name</value>
  </property>
 <property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>/home/ahadoop/hadoop-data/checkpoint</value>
  </property>
<property>
    <name>dfs.blocksize</name>
    <value>134217728</value>
  </property>
</configuration>

dfs.replication:表示hdfs的数据块备份数量，默认是3
dfs.datanode.data.dir :表示datanode的数据路径
dfs.namenode.name.dir:表示namenode的数据路径
dfs.namenode.checkpoint.dir:表示checkpoint的数据路径
dfs.blocksize：表示数据块的大小，此处设置为128M
④：配置mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

mapreduce.framework.name:表示使用的yarn框架
⑤：配置yarn-site.xml

<configuration>
 <property>
<name>yarn.resourcemanager.address</name>
 <value>Master:8032</value>
</property>
<property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>hadoop0:8030</value> </property> <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>hadoop0:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop0:8033</value>
</property>
<property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>hadoop0:8088</value>
</property>
 <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
 <property>
 <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

yarn.resourcemanager.address : 表示resourcemanager的地址
yarn.resourcemanager.webapp.address : 表示resourcemanager的网页访问地址和端口；
yarn.nodemanager.aux-services：NodeManager上运行的附属服务，需配置成mapreduce_shuffle，才可运行MapReduce程序，否则会报错；
⑥：修改hadoop0中hadoop的一个配置文件etc/hadoop/slaves
删除原来的所有内容，修改为如下
配置节点.png

做完上述操作后
我们通过scp命令将所有配置全部发送到其他容器

scp -rq /opt/tools/hadoop/ hadoop1:/opt/tools/hadoop/

scp /etc/hosts hadoop1:/etc/hosts

scp /root/.ssh/authorized_keys hadoop1:/root/.ssh/authorized_keys

![]SQ7TSJACFC@LYOO(NR]]_I.png](http://upload-images.jianshu.io/upload_images/6071674-ee56bb6751d68ae5.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
到这里为止，所有的配置工作都做好了。

然后格式化namenode

hadoop namenode -format
没有报错则代表刚才的配置成功了，有报错的话需要根据报错查找问题

《从0开始用docker搭建 hadoop分布式环境》格式化成功.png

接着启动集群

cd /opt/tools/hadoop/sbin/

./start-all.sh

分布式集群就启动了

    原文作者：一只程序员
    原文地址: https://www.jianshu.com/p/3d5cc7165c15
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。