sequenceiq/hadoop-docker: Hadoop docker image https://github.com/sequenceiq/hadoop-docker 在 Docker 上运行 Apache …
分类:Hive
Hive的日志存储路径
Hive的日志存储路径 日志记录了程序运行的过程,是一种查找问题的利器。 Hive中的日志分为两种 系统日志,记录了hive的运行情况,错误状况。 Job 日志,记录了Hive 中job的执行的历史过程。 系统日志存储在…
0基础学大数据:Hive变量传递设置
科多大数据小课堂: 在oozie的workflow中执行一个hive查询,但是直接就报异常:Variable substitution depth too large:40,从网上查询可知,可以确认是由于语句中使用了过多…
Hive 数据表重命名
场景描述 现有分区表 dwh_reg_user_logins_latest,现在需要在这个表的基础上增加3个字段 基本思路 基本思路是再次新建一个表 dwh_reg_user_logins_latest_new,将旧表中…
sqoop job省略输入mysql密码
sqoop在创建job时,使用–password-file参数,可以避免输入mysql密码,如果使用–password将出现警告,并且每次都要手动输入密码才能执行job,sqoop规定密码文件必须…
Hadoop 之 No FileSystem for scheme: hdfs
速记: 1. 场景&报错: Java 代码开发,访问HDFS并写数据,执行可执行jar包报错如下(执行命令:java -jar xxx.jar): 18/03/15 09:39:16 WARN util.Nati…
hive中所有join连接
内连接:inner join –join优化:在进行join的时候,大表放在最后面 –但是使用/*+streamtable(大表名称)*/来标记大表,那么大表放在什么位置都行了 select /*…
Hive-分区&分桶
分区 简介 为了避免Hive每次查询都扫描整个文件,除了采用索引的方式外,还可以通过建立分区表。分区表是指在创建表的时候指定的partition的分区空间,这样在查找分区的数据时,就不用扫描所有数据文件,只需要扫描指定分…
使用Hive之数据类型和文件格式
Hive支持RDBMS中的大多数数据类型,同时也支持RDBMS中很少支持的3中集合数据类型。 一、基本数据类型 1. Integers 整数型 TINYINT—1 byte integer SMALLINT—2 byte…
Hive中自定义Map/Reduce示例 In Python
Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。使用Python开发(如果使用Java开发,请看这里)。 开发环境: python:2.7.5 hive:2.3.…
hive 快速入门
1. 简介 使用mapreduce 这样的计算框架,可以写出像wordcount这样的程序,虽然已经极大的化简了分布式编程的门槛,但是使用mapreduce依然不够简洁。这就是hive诞生的背景。 程序员发现,MapRe…
Hive常用设置
切换计算引擎(Hive CLI内设置) 设置MapReduce为计算引擎 set hive.execution.engine=mr; 设置Spark为计算引擎 set hive.execution.engine=spar…