什么是Hive: Hive是基于Hadoop之上的数据仓库,数据存放在HDFS上,它同样可以通过ETL来进行数据的抽取、转换和加载。同时Hive可以自己开发Mapreduce程序来完成本身不能提供的数据处理操作。Hive…
分类:Hive
hive的partition的作用和使用方法
一、背景 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 分区表指的是在创建表时指定的partition的…
Hive解析json
需要解析的json为: { “_id”:{ “$oid”:”580db8…
神经病啊
如果许一个不可能的愿望 你会怎么想 千年后我的生命不在绽放 上天会不会让我活到四位数算对我机智的嘉奖 如果许一个不可能的愿望 你会怎么想 一梦梦回到了唐朝 学李白写文章被后人传唱 如果许一个不可能的愿望 你会怎么想 拥有…
5. Hadoop之旅——Hive使用篇(二)
最佳的复制一个partitioned表的步骤: 创建新的目标,跟旧表一样的schema. 如: create table new_xx like xx; 使用 hadoop fs -cp 把旧表所有的分区文件,拷贝到目标…
Hive搭建之本地mysql
安装本地mysql,既可以在一台机器上安装,也可以分别在两台机器上安装。此处分别安装在两台机器上,node1安装mysql,node2安装Hive。 1 在node1上安装mysql -yum install mysql…
CDH 启动 Hive Metastore
翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hive_metastore_start.html 版本: 5.14.…
Hive案例04-员工部门表综合案例
1. 数据说明 (1) dept表 hive> select * from dept; # deptno(部门编号) dname(部门名称) loc(部门所在地区) 10 ACCOUNTING NEW YORK 2…
FSL/FreeSurfer安装教程
本简易教程分两部分:一部分基于Ubuntu 操作系统,另一部分基于Mac OS X操作系统。(注:本文仅供参考,由于系统版本更迭或自行操作不当造成的问题,本人概不负责) 在Ubuntu下安装FSL/FreeSurfer …
Hive之COUNT DISTINCT优化
COUNT(DISTINCT xxx) 在hive中很容易造成数据倾斜。针对这一情况,网上已有很多优化方法,这里不再赘述。 但有时,“数据倾斜”又几乎是必然的。我们来举个例子: 假设表detail_sdk_session…
(五)Hive和Hbase的区别
1. 两者分别是什么? Apache Hive是 一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被 转化为Map/Reduc…
Hive窗口函数01-SUM、MIN、MAX、AVG
Hive窗口函数sum、min、max、avg入门 1. 数据说明 现有 hive 表 cookie1, 内容如下: hive> select * from cookie1; cookie1 2015-04-10 …