我的CSDN: http://blog.csdn.net/FreeFishLy/article/details/79081764 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字…
分类:Hive
hive分区表
hive分区表 1 为什么出现分区表? 假设有海量的数据保存在hdfs的某一个hive表明对应的目录下,使用hive进行操作的时候,往往会搜索这个目录下的所有文件,这有时会非常的耗时,如果我们知道 这些数据的某些特征,可…
利用Python替换Hive查询语句中的变量
Hive查询语句可以看作一个较长的字符串,因此可以用字符串替换函数来修改成其他查询语句。使用Python等编程工具做这件事情的思路是: 编写hive查询语句时用特殊的字符串命名变量 读取整个查询语句为字符串 使用字符串替…
Spark操作Hive分区表
我的原创地址:https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言 前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spar…
docker上从零开始搭建hadoop和hive环境
本文将介绍如何在docker上从零开始安装hadoop以及hive环境。本文不会介绍如何安装docker,也不会过多的介绍docker各个命令的具体含义,对docker完全不了解的同学建议先简单的学习一下docker再来…
大数据Hive 面试以及知识点
1 hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。…
hive 之 join 大法
hive 当中可以通过 join 和 union 两种方式合并表,其中 join 偏向于横向拼接(增加列的数量),union 则主要负责纵向拼接(增加行的数量)。本文先讲解一下 join。 hive 中 join…
sqoop mysql 导入hive CDH
mysql 驱动jar包 使用版本 CDH sqoop lib 包路径,sqoop 需要找到jar 包联接mysql /opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0…
2017年11月1日课后作业
2017年11月1日课后作业 Hive 第二次课程 回顾上节课的内容 Hive是什么 SQL -> MapReduce 为什么会有Hive 给非Java编程者对HDFS上的数据做MapReduce查询使用 数据仓库…
hadoop+hive使用中遇到的问题汇总
http://godlovesdog.iteye.com/blog/1897602
理解目录/user/hive/warehouse/与表的关系
查看目录与表 hive> dfs -ls /user/hive/warehouse/ > ; Found 10 items drwxr-xr-x - root supergroup 0 2017-09-29 …
hive获取中位数
hive里面倒是有个percentile函数和percentile_approx函数,其使用方式为percentile(col, p)、percentile_approx(col, p),p∈(0,1) 其中percen…