先说基础知识 hive中空值分两种 (1)NULL hive中null实际在HDFS中默认存储为’\N’,通过查询显示的是’NULL’。 这时如果查询为空值的字段可通过语句…
标签:hive
在hive查询中使用变量
1.Hive配置属性 Hive配置属性存储于 hiveconf 命名空间中,该命名空间中的属性是可读写的。在查询语句中插入 ‘${hiveconf:变量名}’,就可以通过 hive -hiveco…
Sqoop抽取数据后核对数据准确性
Sqoop从MySQL抽取数据,因为数据有更新(新增和更新在Hive中各对应一条记录),所有Hive中的数据会比MySQL数据多,数据是按trans_date分区的,但是trans_date会变化,所以即使去重后Hive…
Hive 分桶
Hive 分桶 分桶 对于每一个表或者分区,Hive可以进一步组织成桶,也就是更为细粒度的数据范围划分 Hive是针对某一列进行分桶 Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中 好处 …
Hive中日期处理
1、日期函数UNIX时间戳转日期函数:from_unixtime() 函数 格式 返回值 说明 from_unixtime from_unixtime(bigint unixtime[, string format]) …
Hive导出指定分隔符
业务场景: 做数据分析的时候,经常会用到hive -e “sql” > result.csv,然后将结果导入到excel中,可是使用hive -e导出后默认的分隔符是\t,excel无法…
hive执行表操作指令卡死问题的解决
问题描述 在对hive表执行alert的时候,发现卡住不动了,退出后重进尝试drop表,依然卡住不动。 找解决方案如下: 1.网上的方案: 先进入mysql,执行 show variables like 'char%' …
Hive中Parquet格式的使用
#Hive建外部External表(外部表external table): CREATE EXTERNAL TABLE `table_name`( `column1` string, `colum…
Hive的UDF函数
【前言】常见的数据库都有函数,hive自身也有函数。分为内置函数和自定义的UDF函数,自定义函数例如(sum 、count、min、max等)。 另外函数与存储过程是有区别的,存储过程无返回值而函数有返回值 【编写[Hi…
Hive 权限控制
说明 认证(authentication):验证用户所用的身份是否是对的 授权(authorization):验证用户所用身份操作是否有权限 目前hive(版本0.12.0)支持简单的权限管理,默认情况下是不开启,这样所…
Hive配置日志文件并测试
配置日志并测试 进入到hive目录修改日志文件名称 在hive目录下创建logs目录 修改hive-log4j.properties配置文件hive.log.dir 把hive.log.dir=${java.io.tmp…
sparksql读取parquet格式hive表的配制
使用sparksql访问几个hive表join的情况时结果为空,且这个sql在hive里执行是成功的。 val sparkSession = SparkSession .builder() .config("jars",…