2018-01-22 —(hive学习的采坑日志) 技术学习的过程中,真的是要不断的练习,再练习,然后懵逼的发现报错了,然后毫无头绪的找问题,折腾了半天,终于发现被一个空格、逗号、大小写,或者是一些微小的细节卡住了一天,…
分类:Hive
Hive 差集实现
1. IN query plan 1. NOT IN select * from id_full as a where a.id not in (select id from id_incr where day=2018…
hive UNION和子查询
UNION的使用 union用于联合多个select语句的结果集,合并为一个独立的结果集。当前只支持UNION ALL(bag union)。不能消除重复行,每个select语句返回的列的数量和名字必须一样,否则会抛出语…
Hive 分区/分桶
分区/桶 Hive 分区 Hive的分区方式:由于Hive实际上是数据文件在HDFS存在的目录区分 分区字段是虚拟列 一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。 表和列名不区分大小写…
Hadoop安装攻略
1.Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 http://dblab.xmu.edu.cn/blog/install-hadoop/
Hive笔记-ntile
HIve-ntile 转载:http://blog.itpub.net/28929558/viewspace-1181432/ 有时会有这样的需求:如果数据排序后分为三部分,业务人员只关心其中的一部分,如何将这中间的三分…
hive操作数据
create table user_info (user_id int, cid string, ckid string, username string) row format delimited fields ter…
用python访问Hive中的数据
今天尝试用python访问Hive中的数据,以下是一些总结: 环境: Ubuntu 16.04 LTS Python版本:python3.6(anaconda3里面的) 需要额外按照的Linux库 依赖的包和版本:sud…
连接hiveserver2-Hive用户配置
前几天初次接触Hive,需要连接hiveserver2进行一些操作,发现问题似乎并不是很简单,查了好多资料才解决了问题,特做记录。 操作之前做必要假设: 保证Hadoop(单机或者伪分布式模式)安装无误,运行Hadoop…
Hive学习笔记2
Hive 的数据导入: 可以使用Load命令导入,也可以使用Sqoop组件导入数据。 Hive不支持insert插入单条语句 Hive的数据查询 Hive的Java客户端和自定义函数 Hive执行load导入数据。 lo…
HIVE分区、分桶和索引
分区 分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。 (1)静态分区 create table if no…
流式实时日志分析系统的实现原理
说明: 文章所有内容截选自实验楼教程 【流式实时日志分析系统——《Spark 最佳实践》】。 我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景。比如百度统计,它…