如今我们已经进入大数据时代,在校大学生及各个公司很多都开始学习大数据。那么要学习大数据,第一步就是要搭建分布式集群环境。虽说dreamtecher也是个刚学习大数据没多久的小白,但是也愿意为刚刚开始学习大数据的小小白们做一些贡献。接下来,本小白带大家一步步搭建一个大数据的分布式环境。本文为《大数据集群环境搭建》的第一篇,服务器搭建篇。服务器采用五台CentOS 7 虚拟机,分别为master1 master2 slave1 slave2 slave3,安装模式为基础服务器
1、创建用户
注:请在root用户下执行本节操作
创建用户帐号:
useradd hadoop
完成后会在/home下创建hadoop目录,作为用户目录。若没有创建,则手动创建:
mkdir /home/hadoop
将所有者赋予hadoop用户和组:
chown hadoop:hadoop /home/hadoop
chmod 700 /home/hadoop
修改hadoop用户密码:
passwd hadoop
如下命令验证是否成功创建:
方法一:
cat /etc/passwd | grep hadoop
打印出hadoop用户配置信息
方法二:
su hadoop
能成功切换用户到hadoop,且cd命令直接回到家目录/home/hadoop。
2、网络配置
注:请在root用户下操作。
2.1 配置系统IP地址
编辑文件/etc/sysconfig/network-scripts/ifcfg-eth0,写入如下配置:
DEVICE="eth0"
BOOTPROTO="static"
IPADDR=192.168.1.72
GATEWAY=192.168.1.1
NETMASK=255.255.255.0
ONBOOT="yes"
注意:每个节点配置自己对应的IP。
2.2 配置网络hostname
编辑文件/etc/sysconfig/network
NETWORKING=yes
HOSTNAME=master1
2.3 配置本机hostname
编辑文件/etc/hostname
master1
此处应写入本机的hostname,比如master2服务器就写master2,slave1服务器就写slave1
执行如下命令重启network服务: service network restart
如果控制台出现[OK]说明配置成功
2.4 配置系统hosts文件
文件位置/etc/hosts,添加所有节点的hostname映射。
192.168.1.72 master1
192.168.1.73 master2
192.168.1.74 slave1
192.168.1.75 slave2
192.168.1.76 slave3
192.168.1.78 slave4
192.168.1.80 slave5
全部虚拟机配置完成后可使用ping <hostname>测试各hostname映射ip是否正确。
3、配置SSH免登录
大数据集群中各个服务器间通信都需要使用ssh免登录,具体操作请大家自行搜索,网上的资源非常丰富。
4、关闭防火墙
CentOS的防火墙会阻挡大部分端口的通信,如果是真实服务器的环境肯定要为防火墙配置出入端口的规则,但是我们这次安装的虚拟机服务器作为内网中使用的大数据环境,可以直接关闭防火墙。
systemctl stop firewalld.service #停止
systemctl disable firewalld.service #禁用