Hadoop 集群搭建

2024年1月20日 205次阅读来源: dawsonenjoy

集群搭建

说明：基于centos 64位

1.同步时间

手动同步：

yum install ntpdate

网络同步时间：

ntpdate cn.pool.ntp.org

设置时区：

ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

2.设置主机名

vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=node-1

3.配置IP、主机名映射

vim /etc/hosts
192.168.17.139 node-1
192.168.17.140 node-2
192.168.17.130 node-3

4.配置SSH免密登录

（1）对本机设置免密登录：

ssh node-1

选择yes
（2）生成ssh免密登录密钥：

ssh-keygen -t rsa

执行完命令会生成id_rsa私钥和id_rsa.pub公钥
（3）把公钥拷贝到要免密登录的目标机器上：

ssh-copy-id node-1
…

5.配置防火墙

（1）查看防火墙状态：

service iptables status

（2）关闭防火墙：

service iptables stop

（3）查看防火墙开机启动状态：

chkconfig iptables --list

（4）关闭防火墙开机启动：

chkconfig iptables off

6.JDK安装

（1）下载jdk安装包：
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
（2）解压安装包：

tar -zxvf jdk-8u171-linux-x64.tar.gz -C /root/apps

（3）配置环境变量：/etc/profile

export JAVA_HOME=/root/apps/jdk1.8.0_171
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

（4）刷新配置：

source /etc/profile

7.Hadoop配置

下载安装

官方网址：http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.6/
Linux下：

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz

（如果没有wget，则下载：yum install -y wget）
解压文件：

tar -zxvf hadoop-2.7.6.tar.gz

配置

（1）打开文件夹下etc/hadoop/hadoop-env.sh：

vi etc/hadoop/hadoop-env.sh

修改内容：

export JAVA_HOME=/root/apps/jdk1.8.0_171

（2）打开core-site.xml（还是前面的目录），在<configuration>标签中加入内容：

<property>
 <name>fs.defaultFS</name>
 <value>hdfs://node-1:9000</value>
 tfs://
 file://
 gfs://
</property>
<!-- 指定hadoop运行产生文件的存储目录 -->
<property>
 <name>hadoop.tmp.dir</name>
 <value>/home/hadoop/hadoop-2.7.6/tmp</value>
</property>

（3）打开hdfs-site.xml，在<configuration>标签中加入内容：

<!-- 指定HDFS备份数量，默认是3份，这里设置2份 -->
<property>
 <name>dfs.replication</name>
 <value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-2:50090</value>
</property>

（4）在当前目录复制mapred-site.xml.template为mapred-site.xml：

mv mapred-site.xml.template mapred-site.xml

打开mapred-site.xml，在<configuration>标签中加入内容：

<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

（5）打开yarn-site.xml，在<configuration>标签中加入内容：

<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>node-1</value>
</property>
<!-- NodeManager上运行的附属服务，需配置成mapreduce_shuffle，才可运行MapReduce程序默认值 -->
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>

（6）打开slaves，修改文件内容为：

node-1
node-2
node-3

（7）打开/etc/profile，配置hadoop环境变量：

export HADOOP_HOME=/root/apps/hadoop-2.7.6
export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin

（8）将前面配置的通过scp命令拷到另外两个节点当中：

scp -r /root/apps/hadoop-2.7.6/ root@node-2:/root/apps/
scp -r /etc/profile root@node-2:/etc

（9）各主机更新环境变量：

source /etc/profile

说明

在Hadoop的配置文件中，有xxx-default.xml文件，这些文件里面配置了Hadoop默认的配置选项，如果用户没有更改，那么这里面的选项将生效
同样，里面还有很多xxx-site.xml文件，这些里面配置了用户需要自定义配置的选项，这些文件优先级比default的要高

8.启动Hadoop

启动Hadoop集群则需要启动HDFS和YARN两个集群，且要注意第一次启动HDFS时要对其进行格式化操作：（格式化不是传统的格式化，而是对文件系统进行初始化操作，只在主节点所在的机器操作，且只能进行一次）

hdfs namenode -format

此时就会在前面设置的/home/hadoop/hadoop-2.7.6/tmp目录下创建一个叫name的目录，内容全部存在这里

单节点逐个启动

（1）主节点启动HDFS：

hadoop-daemon.sh start namenode

（2）从节点启动HDFS：

hadoop-daemon.sh start datenode

（3）主节点启动YARN：

yarn-daemon.sh start resourcemanager

（4）从节点启动YARN：

yarn-daemon.sh start nodemanager

要停止直接比对应的start改成stop即可

脚本一键启动

如果配置了slaves和ssh免密登录，则可以通过脚本启动所有Hadoop两个集群相关的所有进程，只需在主节点的Hadoop文件夹下的sbin文件夹中执行对应文件：
全启动：start-all.sh
hdfs启动：start-dfs.sh
yarn启动：start-yarn.sh
停止有对应的stop文件，如stop-all.sh

9.基本使用

NameNode

即HDFS，在浏览器中输入：node-1:50070
即可进入portal界面

浏览文件系统

portal中查看：点击portal上面的utilities-browse the file system
命令行中：hdfs dfs -ls /

操作文件系统

创建文件夹：hdfs dfs -mkdir /文件夹名
上传文件：hdfs dfs -put /文件 /上传到哪个目录
举例：

[root@node-1 ~]# hdfs dfs -mkdir /aaa
[root@node-1 ~]# hdfs dfs -put hello.c /aaa

ResourceManager

即YARN，在浏览器输入：node-1:8088
即可进入portal界面

Mapreduce

运行测试

首先进入sbin目录下启动historyserver：

mr-jobhistory-daemon.sh start historyserver

到/root/apps/hadoop-2.7.6/share/hadoop/mapreduce目录下有：hadoop-mapreduce-examples-2.7.6.jar程序给予测试，对于jar的提交方式如下：

hadoop jar jar包名 参数

对于上面的范例程序是用于计算圆周率的，所以输入如下进行测试：

hadoop jar hadoop-mapreduce-examples-2.7.6.jar pi 20 50

此时进入YARN的portal可以看到建立的任务

10.命令使用

Hadoop有提供专门的shell指令来使用，格式一般为：hadoop fs 参数，举例：

[root@node-1 ~]# hadoop fs -ls hdfs://node-1:9000/

此时就能看到HDFS根目录的内容了，由于默认是hdfs://，所以上面的也可以替换成：

[root@node-1 ~]# hadoop fs -ls /

而对于比如要查看主节点机器的目录时，就需要修改hdfs为file了，举例：

[root@node-1 ~]# hadoop fs -ls [file:///root/apps](file:///\\root\apps)

注：
前面有：hdfs dfs 参数，这样的命令，功能和这个类似，但是使用范围有限，仅限于hdfs当中

常用命令

基本和命令linux差不多，主要区别就是命令名变成了参数，即前面加个-，然后后面要选择HDFS目录
参见：https://www.cnblogs.com/cl1234/p/3566923.html

    原文作者：dawsonenjoy
    原文地址: https://www.jianshu.com/p/719c9e0f5ac1
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。