驱动包–mysql-connector-java.jar 安装mysql yum install wget wget -i -c http://dev.mysql.com/get/mysql57-commun…
分类:Hive
Hive入门基础
show tblproperties table_name show tables describe extended mydb.employees –where查询自居没有加分区过滤的话就会禁止提交这个任务…
hive新增字段Bug
最近工作中遇到一个问题: 对于分区表添加字段,向已存在分区中插入数据,结果新增字段的值全部为null。 注:是已存在分区,新的分区并不会产生该问题;无论是内部表还是外部表均有该问题。 解决办法:删除旧分区,重跑数据(因为…
Hive外表批量添加分区
简介 我们有一批日志数据存储在hdfs上,按天创建目录,如2018-07-31的日志hdfs路径为:/data/logs/gateway/20180731。 现在要用hive分析数据,同时要保证这些数据目录不能改变,就需…
hive集成ldap
隶属于文章系列:大数据安全实战 https://www.jianshu.com/p/76627fd8399c <property> <name>hive.server2.authenticatio…
Python链接Hive读取数据的几种方式
R和Python是数据分析人员常用的两个工具, 笔主在R通过RJDBC链接Hive 介绍了R如何链接Hive, 今天换Python. 以下有几种链接方式, 标题均包含了官方链接, 详情大家可点击查看 注意: Python…
大数据教程(一)—— Hadoop集群坏境搭建配置
前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案,更有很多数据相关…
Hive-Transform-Python:快捷的Map/Reduce
Hive 提供了 Transform 这一关键字,使用 python 脚本处理hive 的数据,实现 Map/Reduce 的效果,在一些场景下,相比直接编写 Hadoop MR 要方便不少。 简介 首先简要介绍一下 h…
SQL查询语句编写规范
目的 数据技术团队,每个成员经常要编写SQL来查询和统计数据,数据源有Hive和DB等,每个人编写习惯或多或少有一些差异,这些差异并不一定会影响结果,但是团队中的其他人阅读代码时会产生困扰,尤其是一些复杂的多表关联查询S…
HiveQL实现累积求和
1.需求 有如下访客访问次数的统计表 t_access 访客 月份 访问次数 A 2015-01 5 A 2015-01 15 B 2015-01 5 A 2015-01 8 B 2015-01 25 A 2015-01…
hive笔记之beeline
beeline 连接hive 建表 查询 聚合运算 一般用beeline连接hive进行建表 !connect jdbc:hive2://hadoop6:10000/db: 输入对应的用户和密码 !quit 退出 进行聚…
Hive字符串函数之base64
函数签名 函数返回值类型 使用描述 base64(binary bin) string 将二进制格式转换成base 64位的字符串