Hive知识整理（2）

2019年6月8日 249次阅读来源: 向花开阳阳

内容参考：
慕课网–HIve进阶

一、hive的数据导入

（1） load命令

Load语法：

Load data [local] inpath ‘filepath’[overwrite]
Into table tablename [partition (partcol1=val1,partcol2=val2…)]

（2） Sqoop组件

Sqoop是apache下的开源框架，专门用来做数据的导入导出（批量数据）
注意：Insert在hive中不支持

二、Hive的数据查询

1. 简单查询

Select * from table
–这样的语句不会进行MR，直接返回结果

Fetch Task功能(从Hive10.0版本开始支持):支持简单查询
配置方式：

Set hive.fetch.task.conversion=more
Hive –hiveconf hive.fetch.task.conversion=more
修改hive-site.xml文件

注意： NULL空值需要用is 关键字
函数NVL（）：当值为空时可以转换为特定数值

2. 过滤和查询

在hive HQL中严格区分大小写
Order by 后面可以跟：列，表达式，别名，序号

三、Hive的函数

分为内置函数，自定义函数
内置函数有以下几种：

《Hive知识整理（2）》内嵌函数

数学函数：

Round（）函数：四舍五入

Select round(45.111,2), round(45.111,1), round(45.111,0), round(45.111,-1), round(45.111,-2)

Ceil（）函数：向上取整
Floor()函数：向下取整

字符函数：
Lower()，Upper()，Length()，concat()：拼接字符串，substr():取字符串子串,trim()：去掉字符串前后的空格,lpad()：左填充,rpad()：右填充

例子：substr(a,b):从a中，第b位开始取，取右边所有的字符
substr(a,b，c)：从a中，第b位开始取，取c个字符
lpad（”abc”，10，‘-’）： 对abc这个字符长度填充到10位，用*填充

收集函数：size()：收集map集合的长度

格式：

size(map(<key，value>,<key,value>))
如size(map(1,’TOM’，2，‘MARRY’)),返回的值为2

转换函数：cast()，转换数据类型

cast(1 as float)：转换数字类型，返回结果为1.0
Cast(‘2015-04-10’ as date),返回日期格式

日期函数：
To_date(),year(),month(),day(),weekofday(),datediff(),date_add()，date_sub（）等等

to_date（‘2015-04-23 11:23:11’）返回结果为：2015-04-23

条件函数：
Coalesce():从左到右找到第一个不为null的值
Case…when…:条件表达式

Case a when b then c [where a then e]* [else f] end

例子：

//给员工涨工资，总裁1000，经理800，其他员工400
Select ename,job,sal,
Case job when’president’ then sal+1000
When’manager’then sal+800
Else sai+400
End
From emp;

聚合函数
Count(),sum(),min(),max(),avg()

表生成函数
Explode（）：把map或者表结构中的一列单独生成一行
例子：

Select explode(map(1,’tom’，2，‘marry’,3,’mike’))

返回结果：

1 tom
2 marray
3 mike

四、Hive的表连接

支持以下连接：
等值连接，不等值连接，外连接，自连接
外连接:可以将对于连接条件不成立的记录依然包含在最后的结果中，包括左外连接和右外连接
自连接：核心是通过表的别名将同一张表视为多张表

Hive的子查询需要注意的问题：

语法中的括号
合理的书写风格
Hive只支持：from和where子句中的子查询
主查询和子查询可以不是同一张表
子查询中的空值问题
查询结果如果包含null,则不能使用not in关键字

例子：select * from emp e where e.empno not in (select e1.mgr from emp e1 where e1.mgr is not null);

五、Hive的JDBC客户端操作

启动Hive远程服务

hive –service hiveserver

两种方式可以操作hive中的数据
（1） JDBC
步骤：

《Hive知识整理（2）》 JDBC方式操作hive数据步骤

(2)Thrift Client

《Hive知识整理（2）》 Thrift Client方式操作Hive数据

六、Hive自定义函数的使用

自定义函数部署运行步骤：

《Hive知识整理（2）》 Hive自定义函数

使用自定义函数：

Select <函数名> from table

销毁临时函数：

Hive> drop temporary function <函数名>;

总结：

1、Hive是一个数据仓库，用来支持OLAP的应用，构建在Hadoop集群之上，数据存储在HDFS中，在Hive中的操作会转换成MapReduce的作业。
2、Hive支持类似SQL的HQL语言
3、Hive采用元数据对表进行管理
三种存放方式如下：

《Hive知识整理（2）》元数据存放方式

4、Hive提供非常强大的编程接口
三种：

《Hive知识整理（2）》编程接口

    原文作者：向花开阳阳
    原文地址: https://www.jianshu.com/p/f239356370a2
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。