向管理表中导入数据 load data local inpath '/Users/wesley/apps/data/hive_learning_data/employees/employees.txt' overwrit…
分类:Hive
修修改hdfs上的文件所属用户、所属组等读写执行控制权限
HDFS支持权限控制,但支持较弱。HDFS的设计是基于POSIX模型的,支持按用户、用户组、其他用户的读写执行控制权限。在linux命令行下,可以使用下面的命令修改文件的权限、文件所有者,文件所属组: sudo addg…
hcatalog简介和使用
Hcatalog是apache开源的对于表和底层数据管理统一服务平台,目前最新release版本是0.5,不过需要Hive0.10支持,由于我们hive集群版本是0.9.0,所以只能降级使用hcatalog 0.4,由于…
Hive命令-表字段篇
一、修改字段 Change Column Name/Type/Position/Comment ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_na…
由sqoop导入失败发现的hive的空值问题
先说基础知识 hive中空值分两种 (1)NULL hive中null实际在HDFS中默认存储为’\N’,通过查询显示的是’NULL’。 这时如果查询为空值的字段可通过语句…
启用kerberos的环境下在CDH中使用Spark SQL On HBase
一、前言 在大数据领域,海量存储与快速检索方面HBase早已有了自己的一席之地。MapReduce计算框架早已对接了HBase,以HBase作为数据源,完成批量数据的读写。而Hive默认底层以MapReduce作为计算引…
hive数据导入mysql存在的问题
背景:hive中虽然有数据类型,但是int、double、string都可以在hive中存储为string类型,hive中String类型是没有长度限制的。hive中空值有三种情况,null(NULL值)、R…
hive基础学习
Hive学习 Author : Shan Jia-jun Date : 2016-09-18 hive把数据组织为表,通过这种方式为存储在HDFS上的数据赋予结构 元数据存储在metastore数据库中。 hive 外壳…
Hive数据倾斜之参数设置
如何在开发ETL过程中,设置参数,或者不设置参数,跟依赖的mapreduce平台之间是什么关系? dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tra…
Hive SQL单元测试介绍
动机 Hive被广泛应用大数据领域。它经常用于大型数据集的临时查询和用于实现ETL类型的进程。与即席查询(Ad Hoc )不同,为ETL编写的Hive SQL具有一些不同的属性: 通常按计划重复执行。 它通常是一个庞大而…
Hive表导出成csv文件
先说结论 hive -e "set hive.cli.print.header=true; select * from data_table where some_query_conditions" | sed 's/[…
Hive详解(一)Hive是什么&Hive怎么用
Hive出现的原因 Hadoop通过MapReduce(Hadoop和MapReduce后续我也会提到)可以将复杂的计算任务分割成多个处理单元然后分散到一群家用的或者服务器级别的硬件机器上,从而降低成本并提供运行可伸缩性…