Hive体系架构

2019年6月7日 202次阅读来源: 小小少年Boy

参考：
Hive：基于 Hadoop 的数据仓库工具
 hive体系结构和执行流程

1、Hive产生背景

MapReduce编程的不便性
HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)

2、Hive是什么

Hive的使用场景是什么？

基于Hadoop做一些数据清洗啊（ETL）、报表啊、数据分析
可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后在Hadoop执行。

由Facebook开源，最初用于解决海量结构化的日志数据统计问题
构建在Hadoop之上的数据仓库
Hive定义了一种类SQL查询语言：HQL（类似SQL但不完全相同）
通常用于进行离线数据处理（早期采用MapReduce）
底层支持多种不同的执行引擎（现在可以直接把Hive跑在Spark上面）

Hive底层的执行引擎有：MapReduce、Tez、Spark

3、Hive 特点

Hive 最大的特点是 Hive 通过类 SQL 来分析大数据，而避免了写 MapReduce 程序来分析数据，这样使得分析数据更容易
Hive 是将数据映射成数据库和一张张的表，库和表的元数据信息一般存在关系型数据库上（比如 MySQL）
Hive 本身并不提供数据的存储功能，数据一般都是存储在 HDFS 上的（对数据完整性、格式要求并不严格）
Hive 很容易扩展自己的存储能力和计算能力，这个是继承自 hadoop 的（适用于大规模的并行计算）
Hive 是专为 OLAP(在线分析处理) 设计，不支持事务

4、Hive体系架构

Hive是C/S模式

客户端： JDBC/ODBC Thrift Client 通过服务访问Hive
Client端有JDBC/ODBC和Thrift Client，可远程访问Hive
可以通过shell脚本的方式访问，或者通过Thrift协议，按照平时编写JDBC的方式完成对Hive的数据操作

Server：CLI、Thrift Server、HWI(Hive web Interface)、Driver、Metastore

其中CLI、Thrift Server、HWI是暴露给Client访问的独立部署的Hive服务
Driver、Metastore是Hive内部组件，Metastore还可以供第三方SQL on Hadoop框架使用
beeine(Hive 0.11引入)，作为Hive JDBC Client访问HiveServer2，解决了CLI并发访问问题

Driver：
输入了sql字符串，对sql字符串进行解析，转化程抽象语法树，再转化成逻辑计划，然后使用优化工具对逻辑计划进行优化，最终生成物理计划（序列化反序列化，UDF函数），交给Execution执行引擎，提交到MapReduce上执行（输入和输出可以是本地的也可以是HDFS/Hbase）

Metastore：
Metastore进行元数据管理：Derby（内置）、Mysql
Derby：Derby只接受一个Hive的会话访问
Mysql：Hive跑在Hadoop之上的，Mysql进行主备（定时同步操作）

《Hive体系架构》 Hive体系架构

a: Parsed Logical Plan 执行逻辑计划
b: Analyzed Logical Plan 分析逻辑计划
c: Optimized Logical Plan 优化逻辑计划
d: Physical Plan 得到物理计划，进行执行

《Hive体系架构》 Hive 架构

由上图可知，hadoop 和 mapreduce 是 hive 架构的根基。

MetaStore：存储和管理Hive的元数据，使用关系数据库来保存元数据信息。
解释器和编译器：将SQL语句生成语法树，然后再生成DAG形式的Job链，成为逻辑计划

优化器：只提供了基于规则的优化

列过滤：去除查询中不需要的列
行过滤：Where条件判断等在TableScan阶段就进行过滤，利用Partition信息，只读取符合条件的Partition
谓词下推：减少后面的数据量
Join方式
。 Map端join：调整Join顺序，确保以大表作为驱动表，小表载入所有mapper内存中
。 shuffle join：按照hash函数，将两张表的数据发送给join
。对于数据分布不均衡的表Group by时，为避免数据集中到少数的reducer上，分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle，然后在reduce端部分聚合，减小数据规模，第二个map-reduce阶段再按group-by列聚合。
。 sort merge join：排序，按照顺序切割数据，相同的范围发送给相同的节点(运行前在后台创建立两张排序表，或者建表的时候指定)
。在map端用hash进行部分聚合，减小reduce端数据处理规模。

执行器：执行器将DAG转换为MR任务。执行器会顺序执行其中所有的Job，如果Job不存在依赖关系，采用并发的方式进行执行，

5、Hive sql的执行流程

《Hive体系架构》 Hive sql的执行流程

以下为执行说明：
1.执行查询：hive界面如命令行或Web UI将查询发送到Driver(任何数据库驱动程序如JDBC、ODBC,等等)来执行。

2.获得计划：Driver根据查询编译器解析query语句,验证query语句的语法,查询计划或者查询条件。

3.获取元数据：编译器将元数据请求发送给Metastore(任何数据库)。

4.接受元数据：Metastore将元数据作为响应发送给编译器。

5.发送：编译器检查要求和重新发送Driver的计划。到这里,查询的解析和编译完成。

6.执行计划：Driver将执行计划发送到执行引擎。

7.执行Job：hadoop内部执行的是mapreduce。在执行引擎发送任务的同时，对hive的元数据进行相应操作。

8.得到执行结果：执行引擎接收数据节点(data node)的结果。

9.返回结果：执行引擎发送这些合成值到Driver。

10.返回最终结果：Driver将结果发送到hive接口。

6、数组组织格式

《Hive体系架构》 image.png

Table：每个表存储在HDFS上的一个目录下
Partition(可选)：每个Partition存储再Table的子目录下
Bucket(可选)：某个Partition根据某个列的hash值散列到不同的Bucket中，每个Bucket是一个文件

用户可以指定Partition方式和Bucket方式，使得在执行过程中可以不用扫描某些分区。看上去Hive是先指定Partition方式，再在相同的Partition内部调用hash函数；

7、Hive优化策略

去除查询中不需要的column—列过滤
Where条件判断等在扫描表阶段就进行过滤—谓词下压
利用Partition信息，只读取符合条件的Partition
Map端join，调整Join顺序，以大表作驱动，小表载入所有mapper内存中
对于数据分布不均衡的表Group by时，为避免数据集中到少数的reducer上，分成两个map-reduce阶段。第一个阶段先用Distinct列进行shuffle，然后在reduce端部分聚合，减小数据规模，第二个map-reduce阶段再按group-by列聚合。
在map端用hash进行部分聚合，减小reduce端数据处理规模。

8、Hive的部署方式？三种

1、内嵌模式：使用内嵌的Derby数据库作为存储元数据，Derby只能接受一个Hive会话的访问，不能用于生产； hive服务、metastore服务、derby服务运行在同一个进程中。

2、本地模式：本地安装mysql，替代derby存储元数据，是一个多用户多客户端的模式，作为公司内部使用Hive；hive服务和metastore服务运行在同一个进程中，mysql数据库则是单独的进程，可以同一台机器，也可以在远程机器上。

3、远程模式（Remote）: 远程安装mysql 替代derby存储元数据；Hive服务和metastore在不同的进程内，也可能是不同的机器；

将Metastore分离出来，成为一个独立的Hive服务
可以将Mysql数据库层完全置于防火墙后，不再暴露数据库用户名和密码，避免认证信息的泄漏

9、Hive支持的主要数据格式？

文本文件、序列化文件(行)、parquet文件（列）、RCFile（列）、ORC（列）、Avro File（行）

10、Hive有索引吗？

Hive是支持索引的，但是很少被使用
索引表不会自动rebuild，如果表有数据新增或删除，那么必须手动rebuild索引表数据
索引表本身会非常大
Hive索引的使用过程比较繁琐

Hive的两种索引：
位图索引：普遍用于去重后值比较少的列
紧凑索引：存储每个值的HDFS块号

    原文作者：小小少年Boy
    原文地址: https://www.jianshu.com/p/fa5fe2694748
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。