分类：Hive

sqoop job省略输入mysql密码

sqoop在创建job时，使用–password-file参数，可以避免输入mysql密码，如果使用–password将出现警告，并且每次都要手动输入密码才能执行job，sqoop规定密码文件必须…

创建表时添加一些两个选项文件存储格式： [STORED AS file_format] file_format: : SEQUENCEFILE | TEXTFILE — (Default, dependin…

ANTLR 一款强大的生成”语法解析器”的工具，可以用作读取、处理、执行或翻译结构化文本或二进制文件。广泛的用来构建新的语言、工具和框架。这个”语法解析器”创建和遍历语法树…

一次比较复杂的从Hive复杂格式字段解析出多个hotelid的过程 1.源数据 2.所需数据信息在value字段中，value字段是json格式，首先要提取出该字段中的htllist信息 get_json_object(…

通过阅读本文，可以让你快速了解数仓如何分层，合理，实用。笔者坚持原创，根据实践总结，希望对新手有所帮助。分层案例 1.电信通讯 stage层 ->bdl层 ->analysis层 2.传统金融/保险 od…

hive入门学习：join的三种优化方式 hive在实际的应用过程中，大部份分情况都会涉及到不同的表格的连接，例如在进行两个table的join的时候，利用MR的思想会消耗大量的内存，良妃磁盘的IO，大幅度的影响性能，因…

参考： Hive：基于 Hadoop 的数据仓库工具 hive体系结构和执行流程 1、Hive产生背景 MapReduce编程的不便性 HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合) 2、H…

一、关系运算： 1. 等值比较: = 2. 等值比较:<=> 3. 不等值比较: <>和!= 4. 小于比较: < 5. 小于等于比较: <= 6. 大于比较: > 7. 大于等…

报错如下: Cannot obtain block length for LocatedBlock impala.error.OperationalError: Disk I/O error: Failed to ope…

简介工作中我们遇到了把Hive数据同步到Clickhouse的业务需求，一开始我们写Spark任务，用SparkSQL读Hive，再用JDBC写入到Clickhouse。后来，随着要同步的表越来越多，每次都写Spar…

一、使用IDEA sparksql读取jdbc数据源首先看一下mysql中的数据： mysql> use test; mysql> create table emp(empno int, ename var…

环境 hadoop2.7.1+ubuntu 14.04 hive 2.0.1 集群环境 namenode节点：master (hive服务端) datanode 节点：slave1,slave2（hive客户端） hiv…