查询语句 自动升级数据类型 在做join或计算处理时候,低级的type会自动升级成高级的,如int-bigint,int-float 表生成函数 explode 把行变成列 stack 把多列变成多行 case……whe…
分类:Hive
[SQL]spark sql 直接查询hive或impala中的数据
SparkSQL结合SparkStreaming,使用SQL完成实时计算中的数据统计 – lxw的大数据田地 http://lxw1234.com/archives/2015/11/552.htm Flume+Kafka…
hive笔记
hive set mapreduce.job.queuename = production set hive.execution.engine = spark/mr; beeline连接hive beeline !con…
hive中orc表sqoop导出到mysql
环境: sqoop版本:1.4.6 hive版本:2.1.1 hadoop版本:2.7.3 起因: orc表导出到mysql有时碰到空字符串的问题一直没有时间整理,这次测试一下 结论: hive中为string类型的空字…
黑猴子的家:Hive 优化之并行执行
Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的…
使用PySpark编写SparkSQL程序查询Hive数据仓库
作业脚本采用Python语言编写,Spark为Python开发者提供了一个API—–PySpark,利用PySpark可以很方便的连接Hive 下面是准备要查询的HiveSQL select su…
HBase和Hive整合
HBase版本:1.2.6 Hive版本:1.2.1 1. 把HIVE_HOME/lib/hive-hbase-handler-1.2.1.jar 复制到HBASE_HOME/lib/下 2. 把HBASE_HOME/l…
[笔记] 用单节点HIVE+SPARK执行ETL任务
动机 本身是java码农. 运维的Hadoop小集群上硬盘故障已经成为每天日常, 有各种hdfs故障. 最严重一次,文件没法从datanode同步到namenode的情况,导致集群完全不可用. 目前很多ELT任务都是用S…
Hive基本介绍及配置
1. 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成…
Hive自定义函数与transform的使用
hive是给了我们很多内置函数的,比如转大小写,截取字符串等,具体的都在官方文档里面。但是并不是所有的函数都能满足我们的需求,所以hive提供了给我们自定义函数的功能。 1、至于怎么测试hive为我们提供的函数 因为my…
尚硅谷大数据技术之Hive 第9章 企业级调优
9.1 Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存…
[概念]Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 基础之:分区、桶、Sort Merge Bucket Join – 远方的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/u0147747…