标签：hive

hive 加载csv格式去除首行

使用hive时，有时候会碰到数据源是csv格式的文本。如果直接加载进hive，也会把csv的表头【schema】添加到hive中，形成脏数据。解决办法如下：参数项 hive 0.13版本新特性： tblproperti…

hive自定义函数 1 自定义函数 1.1 为什么需要自定义函数 hive的内置函数满足不了所有的业务需求。 hive提供很多的模块可以自定义功能，比如：自定义函数、serde、输入输出格式等。 1.2 常见自定义函数有…

Json 格式的数据处理 Json 数据格式是我们比较常用的的一种数据格式，例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式，所以我们很有必要学习一下这种数据格式的处理方法准备数据 cat json.dat…

一、ceil：向上取整 ceil(DOUBLE d): d是DOUBLE类型的，返回>=d的最小的BIGINT值 spark-hive> select ceil(123.58); _c…

hive是一个基于hadoop的数据仓库的工具，可以将分布式文件系统HDFS中的结构化数据，映射为一张张表。将映射成的元数据保存在用户设定的数据库中，并且可以使用类SQL的语言：Hive QL进行数据的分析处理。并且h…

引言: 通过split分割当前字段获取数组，并得到最后一个索引的元素，通过hive怎么实现，下面通过不同方法一一验证可行性。字段样式 shopList : productA,productB,pr…

如何提高Hive 的查询性能？ Apache Hive是一种强大的数据分析工具。在处理数PB的数据时，了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的，如有不足之处，望指出。 1、使用Tez引…

在日常取数或者数据处理中，我们会遇到需要把一列变多行的数据拆分操作，或者是需要把多行变一列的合并操作，接下来，就总结下在sql中通过lateral view explode()和concat_ws()/collect_s…

hive实训项目———电商数据分析题干: 某大型电商公司从后台服务器收集到30W条的日志用户行为数据，经过数据初步清洗得到数据如下表sale_user.zip，假如你是该公司一员开发…

1. 后台启动HIVE的JDBC连接（就是可以把启动jdbc的页面可以关闭并且jdbc连接不会断开） 0 表示标准输入 1 表示标准输出 &nb…

这里写目录标题一、后台启动HIVE的JDBC连接二、HIVE WORDCOUNT 三、WITH AS 用法五、集合函数六、行列互换七、练习：学生成绩 1、统计各性别年龄前三 2、取每个班级总分最大的同学八、…

记录一个hive中遇到的很有意思的问题，首先我建了两张临时表，最终要把两张表关联起来的时候，发现：两张表中的关联字段都是唯一的，关联之后关联字段竟然不唯一了！关联方法用的left join。检验sql如下： SELECT…