一次完整的大数据环境搭建——构建数据仓库Hive

2019年6月7日 319次阅读来源: lg的精神食粮

所用软件版本号

Mysql-Server mysql-community-server

Mysql 服务器连接依赖包 mysql-connector-java-5.1.5-bin.jar

hive apache-hive-2.1.1-bin.tar.gz

master 作为 client 客户端

slave1 作为 hive server 服务器端

slave2 安装mysql server

1、slave2上安装mysql server

（1）安装 EPEL 源

yum -y install epel-release

（2）安装 MySQL server 包，下载源安装包：

yum -y install wget #centos精简版是没有wget功能滴，所以需要安装
wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm

（3）安装源：

rpm -ivh mysql57-community-release-el7-8.noarch.rpm

安装完成，查看是否有包mysql-community.repo和mysql-community-source.repo：

cd /etc/yum.repos.d

《一次完整的大数据环境搭建——构建数据仓库Hive》图1.1 查看是否有源包

安装 MySQL：

yum -y install mysql-community-server

（4）启动服务，重载所有修改过的配置文件：

systemctl daemon-reload

开启服务：

systemctl start mysqld

开机自启：

systemctl enable mysqld

（5）安装完毕后，/var/log/mysqld.log文件中会自动生成一个随机的密码，我们需要先取得这个随机密码，以用于登录 MySQL 服务端：

获取初密码：

grep ‘temporarypassword’/var/log/mysqld.log

登陆 MySQL：

mysql -uroot -p

（6）MySQL 密码安全策略：

设置密码强度为低级：

set global validate_password_policy=0; 设置密码长度：set global validate_password_length=4;

修改本地密码：

alter user ‘root’@’localhost’ identified by ‘123456’;

退出：\q

密码强度分级如下：

0 为 low 级别，只检查长度；

1为 medium 级别（默认），符合长度为 8，且必须含有数字，大小写，特殊字符；

2 为 strong 级别，密码难度更大一些，需要包括字典文件。

密码长度最低长为 4，当设置长度为 1、2、3 时，其长度依然为 4。

（7）设置远程登录

以新密码登陆 MySQL：

mysql -uroot -p123456

创建用户：

create user ‘root’@’%’ identified by ‘123456’;

允许远程连接：

grant all privileges on *.* to ‘root’@’%’ withgrant option;

刷新权限：

flush privileges;

《一次完整的大数据环境搭建——构建数据仓库Hive》图1.2 允许MySQL远程连接

2、slave1 上安装 hive

（1）首先我们需要创建工作路径，并将 hive 解压。环境中 master 作为客户端，slave1 作为服务器端，因此都需要使用到 hive。

slave1 中操作如下：

cd /opt/soft
mkdir -p /usr/hive
tar -zxvf /opt/soft/apache-hive-2.1.1-bin.tar.gz -C /usr/hive/

因为master作为客户端，所以同样在master上建立文件夹/usr/hive，然后 slave1 中将安装包远程复制到master。

scp -r /usr/hive/apache-hive-2.1.1-bin root@slave1:/usr/hive/

（2）修改/etc/profile 文件设置 hive 环境变量。（master 和 slave1 都执行）。

vi /etc/profile
#set hive
export HIVE_HOME=/usr/hive/apache-hive-2.1.1-bin export PATH=$PATH:$HIVE_HOME/bin

生效环境变量：

source /etc/profile

（3）因为服务端需要和 Mysql 通信，所以服务端需要 Mysql 的 lib 安装包到 Hive_Home/conf 目录下。（此处需要自己将下载的mysql.jar包放在slave2的/lib目录下）mysql.jar 放在 slave2 中的/lib 目录下，需要将其远程复制到 slave1 的 hive 的 lib 中。

slave2 中进行如下操作：

ls /lib
scp /lib/mysql-connector-java-5.1.5-bin.jar root@slave1:/usr/hive/apache-hive-2.1.1-bin/lib

《一次完整的大数据环境搭建——构建数据仓库Hive》图2.1 jar包的远程复制

（4）回到 slave1，cd conf/修改 hive-env.sh 中 HADOOP_HOME 环境变量。

cp hive-env.sh.template hive-env.sh
HADOOP_HOME=/usr/hadoop/hadoop-2.7.3

（5）修改 slave1 hive-site.xml 文件（切记，此处千万不要复制hive-site.xml.template包，直接vi编辑一个新的hive-site.xml文件就ok，下面的master同样不能复制）

<configuration>
<!– Hive产生的元数据存放位置–>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive_remote/warehouse</value>
</property>
<!– 数据库连接JDBC的URL地址–>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://slave2:3306/hive?createDatabaseIfNotExist=true</value> #连接MySQL所在的ip（主机名）及端口
</property>
<!– 数据库连接driver，即MySQL驱动–>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<!– MySQL数据库用户名–>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<!– MySQL数据库密码–>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
<property>
<name>datanucleus.schema.autoCreateAll</name>
<value>true</value>
</property>
</configuration>

3、Master 作为客户端

（1）解决版本冲突和 jar 包依赖问题。

由于客户端需要和 Hadoop 通信，所以需要更改 Hadoop 中 jline 的版本。即保留一个高版本的 jline jar 包，从 hive 的 lib 包中拷贝到 Hadoop 中 lib 位置为/usr/hadoop/hadoop-2.7.3/share/hadoop/yarn/lib。

cp /usr/hive/apache-hive-2.1.1-bin/lib/jline-2.12.jar /usr/hadoop/hadoop-2.7.3/share/hadoop/yarn/lib/

《一次完整的大数据环境搭建——构建数据仓库Hive》图3.1 jline版本替换

（2）修改 master hive-env.sh

cp hive-env.sh.template hive-env.sh
HADOOP_HOME=/usr/hadoop/hadoop-2.7.3

（3）修改 hive-site.xml（不要复制hive-site.xml.template文件。）

<configuration>
<!– Hive产生的元数据存放位置–>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive_remote/warehouse</value>
</property>
<!— 使用本地服务连接Hive,默认为true–>
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>
<!– 连接服务器–>
<property>
<name>hive.metastore.uris</name>
<value>thrift://slave1:9083</value> #hive客户端通过thrift服务器服务连接MySQL数据库，这里的thrift服务器就是slave1的ip（主机名）
</property>
</configuration>

4、启动 Hive

（1）启动 hive server（slave1 上）

bin/hive –service metastore

《一次完整的大数据环境搭建——构建数据仓库Hive》图4.1 slave1中成功启动hive server

（2）启动 hive client(master 上)

bin/hive

测试 hive 是否启动成功：

hive>show databases;

《一次完整的大数据环境搭建——构建数据仓库Hive》图4.2 master中成功启动hive client

（3）最后 master 的进程如下：

《一次完整的大数据环境搭建——构建数据仓库Hive》图4.3 master中进程

一次完整的大数据环境搭建目录：

一、zookeeper安装及基础环境配置
二、Hadoop安装
三、Hbase安装及配置
四、构建数据仓库Hive

说明：此系列文章是为了记录本人学习过程，以此来加深理解，希望各位大神路过！！

    原文作者：lg的精神食粮
    原文地址: https://www.jianshu.com/p/3e17ec49c8a6
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。