使用hive时,有时候会碰到数据源是csv格式的文本。如果直接加载进hive,也会把csv的表头【schema】添加到hive中,形成脏数据。解决办法如下: 参数项 hive 0.13版本新特性: tblproperti…
分类:Hive
hive的3种自定义函数
hive自定义函数 1 自定义函数 1.1 为什么需要自定义函数 hive的内置函数满足不了所有的业务需求。 hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。 1.2 常见自定义函数有…
数仓工具—Hive语法之Json 数据处理(1)
Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法 准备数据 cat json.dat…
hive-sql查询结果保留特点小数位数的方法
一、ceil:向上取整 ceil(DOUBLE d): d是DOUBLE类型的,返回>=d的最小的BIGINT值 spark-hive> select ceil(123.58); _c…
HIVE表创建与表结构修改入门
hive是一个基于hadoop的数据仓库的工具,可以将分布式文件系统HDFS中的结构化数据,映射为一张张表。将映射成的元数据保存在用户设定的数据库中,并且可以使用类SQL的语言:Hive QL进行数据的分析处理。 并且h…
Hive 获取数组最后一个元素
引言: 通过split分割当前字段获取数组,并得到最后一个索引的元素,通过hive怎么实现,下面通过不同方法一一验证可行性。 字段样式 shopList : productA,productB,pr…
[Hive 进阶]-- 7种可以提高 Hive 查询速度的方法
如何提高Hive 的查询性能? Apache Hive是一种强大的数据分析工具。在处理数PB的数据时,了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的,如有不足之处,望指出。 1、使用Tez引…
sql中的列变行、行变列操作
在日常取数或者数据处理中,我们会遇到需要把一列变多行的数据拆分操作,或者是需要把多行变一列的合并操作,接下来,就总结下在sql中通过lateral view explode()和concat_ws()/collect_s…
hive实训项目之电商数据分析
hive实训项目———电商数据分析 题干: 某大型电商公司从后台服务器收集到30W条的日志用户行为数据,经过数据初步清洗得到数据如下表sale_user.zip,假如你是该公司一员开发…
Hive第三天
1. 后台启动HIVE的JDBC连接(就是可以把启动jdbc的页面可以关闭并且jdbc连接不会断开) 0 表示标准输入 1 表示标准输出 &nb…
HiveDay03
这里写目录标题 一、 后台启动HIVE的JDBC连接 二、HIVE WORDCOUNT 三、WITH AS 用法 五、集合函数 六、行列互换 七、练习:学生成绩 1、统计各性别年龄前三 2、取每个班级总分最大的同学 八、…
一个hive遇到的问题(两表关联,两表中关联字段唯一,关联结果表中不唯一)
记录一个hive中遇到的很有意思的问题,首先我建了两张临时表,最终要把两张表关联起来的时候,发现:两张表中的关联字段都是唯一的,关联之后关联字段竟然不唯一了!关联方法用的left join。检验sql如下: SELECT…