Hive 工作原理

2019年6月7日 255次阅读来源: heamon7

Hive SQL任务本质上最后是转化成了 MapReduce 任务执行。

select u.name, o.orderid from order o join user u on o.uid = u.uid;

在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。MapReduce的过程如下（这里只是说明最基本的Join的实现，还有其他的实现方式）

《Hive 工作原理》 Join 实现

select rank, isonline, count(*) from city group by rank, isonline;

将GroupBy的字段组合为map的输出key值，利用MapReduce的排序，在reduce阶段保存LastKey区分不同的key。MapReduce的过程如下（当然这里只是说明Reduce端的非Hash聚合过程）

《Hive 工作原理》 group by 实现

select dealid, count(distinct uid) num from order group by dealid;

当只有一个distinct字段时，如果不考虑Map阶段的Hash GroupBy，只需要将GroupBy字段和Distinct字段组合为map输出key，利用mapreduce的排序，同时将GroupBy字段作为reduce的key，在reduce阶段保存LastKey即可完成去重

《Hive 工作原理》 1distinct.png

了解了MapReduce实现SQL基本操作之后，我们来看看Hive是如何将SQL转化为MapReduce任务的，整个编译过程分为六个阶段：

PS: 查看hive sql编译后的执行计划

hive> explain select * from tablename;

    原文作者：heamon7
    原文地址: https://www.jianshu.com/p/dbad3b3d40eb
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。