sqoop在创建job时,使用–password-file参数,可以避免输入mysql密码,如果使用–password将出现警告,并且每次都要手动输入密码才能执行job,sqoop规定密码文件必须…
分类:Hive
Hive创建snappy压缩格式的orc文件类型表
创建表时添加一些两个选项 文件存储格式: [STORED AS file_format] file_format: : SEQUENCEFILE | TEXTFILE — (Default, dependin…
ANTLR4解析MySQL语句
ANTLR 一款强大的生成”语法解析器”的工具,可以用作读取、处理、执行或翻译结构化文本或二进制文件。广泛的用来构建新的语言、工具和框架。这个”语法解析器”创建和遍历语法树…
解析Hive复杂字段1--lateral view explode
一次比较复杂的从Hive复杂格式字段解析出多个hotelid的过程 1.源数据 2.所需数据信息在value字段中,value字段是json格式,首先要提取出该字段中的htllist信息 get_json_object(…
数仓分层模型|简练实用(推荐收藏)
通过阅读本文,可以让你快速了解数仓如何分层,合理,实用。 笔者坚持原创,根据实践总结,希望对新手有所帮助。 分层案例 1.电信通讯 stage层 ->bdl层 ->analysis层 2.传统金融/保险 od…
hive入门学习:join的三种优化方式
hive入门学习:join的三种优化方式 hive在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接,例如在进行两个table的join的时候,利用MR的思想会消耗大量的内存,良妃磁盘的IO,大幅度的影响性能,因…
Hive体系架构
参考: Hive: 基于 Hadoop 的数据仓库工具 hive体系结构和执行流程 1、Hive产生背景 MapReduce编程的不便性 HDFS上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合) 2、H…
(六)Hive函数大全
一、关系运算: 1. 等值比较: = 2. 等值比较:<=> 3. 不等值比较: <>和!= 4. 小于比较: < 5. 小于等于比较: <= 6. 大于比较: > 7. 大于等…
Hive报错
报错如下: Cannot obtain block length for LocatedBlock impala.error.OperationalError: Disk I/O error: Failed to ope…
Logstash同步Hive和Clickhouse
简介 工作中我们遇到了把Hive数据同步到Clickhouse的业务需求,一开始我们写Spark任务,用SparkSQL读Hive,再用JDBC写入到Clickhouse。 后来,随着要同步的表越来越多,每次都写Spar…
SparkSQL读写JDBC数据
一、使用IDEA sparksql读取jdbc数据源 首先看一下mysql中的数据: mysql> use test; mysql> create table emp(empno int, ename var…
hadoop上搭建hive(远程模式+hive服务端、客户端)
环境 hadoop2.7.1+ubuntu 14.04 hive 2.0.1 集群环境 namenode节点:master (hive服务端) datanode 节点:slave1,slave2(hive客户端) hiv…