黑猴子的家：Hive查询之 JOIN 语句

2023年3月13日 231次阅读

Hive支持通常的SQL JOIN语句，但是只支持等值连接，不支持非等值连接。

案例

根据员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门编号；

hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e 
join dept d on e.deptno = d.deptno;

合并员工表和部门表

hive (default)> select e.empno, e.ename, d.deptno from emp e 
join dept d on e.deptno = d.deptno;

尖叫提示：使用别名可以简化查询，而且使用表名前缀可以提高执行效率。

内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

hive (default)> select e.empno, e.ename, d.deptno from emp e 
join dept d on e.deptno = d.deptno;

左外连接：JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。

hive (default)> select e.empno, e.ename, d.deptno from emp e left 
join dept d on e.deptno = d.deptno;

右外连接：JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。

hive (default)> select e.empno, e.ename, d.deptno from emp e 
right join dept d on e.deptno = d.deptno;

满外连接：将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话，那么就使用NULL值替代。

hive (default)> select e.empno, e.ename, d.deptno from emp e 
full join dept d on e.deptno = d.deptno;

1）准备数据 location.txt

1700    Beijing
1800    London
1900    Tokyo

2）创建位置表

hive (default)>  create table if not exists default.location(
loc int,
loc_name string
)
row format delimited fields terminated by '\t';

3）导入数据

hive (default)> load data local inpath '/opt/module/datas/location.txt' 
into table default.location;

4）多表连接查询

hive (default)> select e.ename, d.deptno, l. loc_name from  emp e 
join  dept d
on   d.deptno = e.deptno 
join  location l
on   d.loc = l.loc;

尖叫提示：大多数情况下，Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进行连接操作，然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l;进行连接操作。

为什么不是表d和表l先进行连接操作呢？这是因为Hive总是按照从左到右的顺序执行的，而且连接 n个表，至少需要n-1个连接条件。例如：连接三个表，至少需要两个连接条件。

案例

hive (default)> select empno, deptno from emp, dept;
FAILED: SemanticException Column deptno Found in more than One Tables/Subqueries

尖叫提示：笛卡尔集会在下面条件下产生
（1）省略连接条件
（2）连接条件无效
（3）所有表中的所有行互相连接