分类：Hive

##[镜像sequenceiq/hadoop-docker]在Docker Container中运行Hadoop程序

sequenceiq/hadoop-docker: Hadoop docker image https://github.com/sequenceiq/hadoop-docker 在 Docker 上运行 Apache …

Hive的日志存储路径日志记录了程序运行的过程，是一种查找问题的利器。 Hive中的日志分为两种系统日志，记录了hive的运行情况，错误状况。 Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在…

科多大数据小课堂：在oozie的workflow中执行一个hive查询，但是直接就报异常：Variable substitution depth too large:40，从网上查询可知，可以确认是由于语句中使用了过多…

场景描述现有分区表 dwh_reg_user_logins_latest，现在需要在这个表的基础上增加3个字段基本思路基本思路是再次新建一个表 dwh_reg_user_logins_latest_new，将旧表中…

sqoop在创建job时，使用–password-file参数，可以避免输入mysql密码，如果使用–password将出现警告，并且每次都要手动输入密码才能执行job，sqoop规定密码文件必须…

速记： 1. 场景&报错： Java 代码开发，访问HDFS并写数据，执行可执行jar包报错如下（执行命令:java -jar xxx.jar）： 18/03/15 09:39:16 WARN util.Nati…

内连接：inner join –join优化：在进行join的时候，大表放在最后面 –但是使用/*+streamtable(大表名称)*/来标记大表，那么大表放在什么位置都行了 select /*…

分区简介为了避免Hive每次查询都扫描整个文件，除了采用索引的方式外，还可以通过建立分区表。分区表是指在创建表的时候指定的partition的分区空间，这样在查找分区的数据时，就不用扫描所有数据文件，只需要扫描指定分…

Hive支持RDBMS中的大多数数据类型，同时也支持RDBMS中很少支持的3中集合数据类型。一、基本数据类型 1. Integers 整数型 TINYINT—1 byte integer SMALLINT—2 byte…

Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。使用Python开发(如果使用Java开发，请看这里)。开发环境: python:2.7.5 hive:2.3.…

1. 简介使用mapreduce 这样的计算框架，可以写出像wordcount这样的程序，虽然已经极大的化简了分布式编程的门槛，但是使用mapreduce依然不够简洁。这就是hive诞生的背景。程序员发现，MapRe…

切换计算引擎(Hive CLI内设置) 设置MapReduce为计算引擎 set hive.execution.engine=mr; 设置Spark为计算引擎 set hive.execution.engine=spar…