Hadoop 2.x分布式集群部署

2019年6月8日 269次阅读来源: 心_的方向

服务组件的规划

机器的配置需要根据实际情况考虑。由于我用的虚拟机，所以各个容量大小设置的都很低。* 注意：搭建分布式至少三台机器。 *

机器1	机器2	机器3
主机名：bigdata-00	主机名：bigdata-01	主机名：bigdata-02
内存大小：1G	内存大小：1G	内存大小：1G
CPU核数：1核	CPU核数：1核	CPU核数：1核
硬盘容量：15G	硬盘容量：15G	硬盘容量：15G

HDFS和YARN的服务规划和配置(hadoop版本-2.5.0)。因为NameNode、ResourceManager、SecondaryNameNode都是比较消耗内存的，所以放在不同的机器上可以减轻机器的负载；MRHistoryServer不消耗过多的内存可以任意放置。

机器1	机器2	机器3
NameNode	ResourceManager	SecondaryNameNode
DateNode	DateNode	DateNode
NodeManager	NodeManager	NodeManager
MRHistroyServer

克隆虚拟机及配置步骤

对克隆完成的虚拟机修改其主机名

先临时修改

[wulei@bigdata-00 ~]$ hostname bigdata-00

永久修改

[wulei@bigdata-00 ~]$ vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=bigdata-00

会发现 /etc/udev/rules.d/70-persistent-net.rules(记录了mac地址、网卡名等信息) 下有两条信息。可以选择清空这个文件夹，也可以删去其中一条，并在另外一条中修改mac地址和网卡名。我这里选择清空。

[root@bigdata-02 ~]# >/etc/udev/rules.d/70-persistent-net.rules

配置网卡信息，修改配置文件 /etc/sysconfig/network-scripts/ifcfg-eth0。几处重要的修改如下。配置完成后重启，ping外网测试。
HWADDR=00:0C:29:A8:EA:9D
IPADDR=192.168.200.7
NETMASK=255.255.255.0
GATEWAY=192.168.200.2
[root@bigdata-00 ~]# ping www.baidu.com
在配置文件 /etc/hosts 中添加主机名映射

192.168.200.5 bigdata-00
192.168.200.6 bigdata-01
192.168.200.7 bigdata-02

Hadoop集群的安装和配置

规划集群的安装目录。为了方便管理，一个集群的相同组件应该放在相同的目录。

[root@bigdata-00 ~]# mkdir /opt/app

一般操作不会一直在root用户下操作，因此修改这个目录的用户主。

[root@bigdata-02 ~]# chown wulei:wulei /opt/app
[root@bigdata-02 ~]# ll -d /opt/app
drwxr-xr-x 2 wulei wulei 4096 Oct 19 09:10 /opt/app

安装和配置JDK

[root@bigdata-01 opt]# tar -zxf softwares/jdk-8u101-linux-x64.tar.gz -C modules/
[root@bigdata-01 opt]# vim /etc/profile
##java7
export JAVA_HOME=/opt/modules/jdk1.8.0_101
export PATH=$JAVA_HOME/bin:$PATH
source /etc/profile

解压Hadoop 2.5.0至app目录下。删除hadoop目录下share/doc(文档)目录，以节约磁盘空间。

[root@bigdata-01 opt]# tar -zxf softwares/hadoop-2.5.0.tar.gz -C app/
[root@bigdata-00 opt]# rm -rf app/hadoop-2.5.0/share/doc

指定运行hadoop各组件的JAVA_HOME路径。需要设置三个配置文件：hadoop-env.sh、mapred-env.sh、yarn-env.sh。

export JAVA_HOME=/opt/modules/jdk1.8.0_101

配置相关服务组件XML文件，其中包括指定哪台机器作为NameNode节点和NameNode文件存储的目录。

core-site.xml配置NameNode

        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://bigdata-00:8020</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/app/hadoop-2.5.0/data/tmp</value>
        </property>

在slaves文件中设置DataNode

192.168.200.5  bigdata-00
192.168.200.6  bigdata-01
192.168.200.7  bigdata-02

hdfs-site.xml配置SecondaryNameNode。把它部署在 bigdata-02 机器上。

        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>bigdata-02:50090</value>
        </property>

yarn-site.xml配置YARN。各个参数的解释：
yarn.resourcemanager.hostname 指定resoucemanager节点
yarn.nodemanager.aux-services 需要配置成mapreduce_shuffle才能运行mapreduce程序。
yarn.log.aggregation-enable 是否启动日志聚集功能。日志聚集是YARN提供的日志中央化管理功能，启动它可以将container和任务产生的相关日志文件上传到HDFS上(从而实现中央化管理功能)，默认情况下个日志文件是存储在各个NodeManager节点上的。
yarn.log.aggregation.retain-seconds 设置聚集日志在HDFS保存的时间(单位为秒)。

        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>bigdata-01</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.log.aggregation-enable</name>
                <value>true</value>
        </property>
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>18000</value>
        </property>

mapred-site.xml配置mapreduce。各参数的解释：
mapreduce.framework.name 指定mapreduce的运行在什么框架上。默认值为本地。
mapreduce.jobhistory.address 指定MapReduce JobHistory Server地址。
mapreduce.jobhistory.webapp.address 指定MapReduce JobHistory Server Web UI地址。

        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>bigdata-00:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>bigdata-00:19888</value>
        </property>

先在一台机器上测试各个服务；然后分发配置文件到其他节点上；最后在其他节点上测试各个服务。注：如果不能正常启动服务，应该在logs下面查看相应的启动日志文件。

测试HDFS服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start namenode
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/hadoop-daemon.sh start datanode
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4402 Jps
4234 NameNode
4331 DataNode

测试HDFS能否创建目录、上传文件、读取文件。

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -mkdir -r /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -ls /
Found 1 items
drwxr-xr-x – wulei supergroup 0 2016-10-19 16:01 /test
[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -put /etc/hosts /test/

[wulei@bigdata-00 hadoop-2.5.0]$ bin/hdfs dfs -text /test/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

测试YARN服务能否正常启动

[wulei@bigdata-00 hadoop-2.5.0]$ sbin/yarn-daemon.sh start nodemanager
[wulei@bigdata-00 hadoop-2.5.0]$ sbin/mr-jobhistory-daemon.sh start historyserver
[wulei@bigdata-00 hadoop-2.5.0]$ jps
4769 NodeManager
4887 JobHistoryServer
4234 NameNode
4331 DataNode

分发配置文件到其余两个节点并启动相应的服务，然后测试其余节点HDFS是否正常，和上面的步骤一样。

[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-01:/opt/app/hadoop-2.5.0/
[wulei@bigdata-00 hadoop-2.5.0]$ scp -r etc/ wulei@bigdata-02:/opt/app/hadoop-2.5.0/

在管理界面查看所有namenode(bigdata-00:50070)
datanode.png
测试mapreduce能否跑在YARN集群上。需要注意jar包必须运行在namenode节点上，因为只有从该节点才能使用分布式文件系统的目录结构。在wb管理界面(bigdata-01:8088)查看mapreduce运行进度。