背景 最近需要将mysql的数据库的数据导入到hive里,期间遇到了很多坑,这次来总结一下。 步骤 1.启动hiveServer2 kettle 是通过jdbc 来连接hive的,而jdbc 方式连接hive需要启动hi…
分类:Hive
Hive-ES配置实例
配置过程如下: 1)添加jar包 add jar file:///path/to/elasticsearch-hadoop-hive-5.2.0.jar; 2)创建一个hive-es对应表 create external…
第五章 从Hive平滑过渡到Spark SQL
第五章 从Hive平滑过渡到Spark SQL [TOC] SQLContext(1.X)/HiveContext(1.X)/SparkSession(2.X)使用 spark-shell/spark-sql的使用 th…
AVRO
Avro([ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人)牵头开发。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它…
hive初识
1、hive是个啥 1)hive主要是对mapreduce任务进行简化操作,方便工作人员快速进行数据分析; 2)hive是构建在hadoop之上的数据仓库,能够将结构化的数据文件映射成一张表,以HQL作为查询接口,使用H…
Hive学习
Hive学习 标签(空格分隔): Hadoop Hive 官网地址:https://hive.apache.org/ 下载地址:http://www-us.apache.org/dist/hive/hive-2.1.1/…
Hadoop实验——Hive的安装和实验
实验目的 理解Hive在Hadoop体系结构中的角色。 熟悉Hive的DDL命令与DML操作。 区分数据仓库和数据库的概念。 实验平台 操作系统:Ubuntu-16.04 Hadoop版本:2.6.0 JDK版本:1.8…
Hive扩展功能(九)--Hive的行级更新操作(Update)
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 </br> 主机配置: 一共m1, m2, m3这三部机, 每部主机的用户名都为cent…
Hive高级查询
Hive高级查询 查询操作 group by、Order by 、Join 、distribute by 、Sort by 、cluster by 、Union all 底层的实现 Mapreducer 几个简单的聚合操…
大数据开发学习笔记——flume集成hive
又是周五啦~ 分享完就回家过周末~_~ flume集成hive的笔记 1、 确定你的flume在哪台主机上 2、 确认该台主机上的flume是否可以正常使用? 在指定的目录下,创建一个bigdata_page_to_hi…
Hive正则表达式
参考维基百科、Hadoop Hive概念学习系列之hive的正则表达式初步(六)和Hive 正则匹配函数 之前没有在意过正则表达式,但是工作组不可避免的遇到了,感觉也比较重要,就花点时间理解一下。 一、正则表达式简介 正…
Hive load外部文件时如何区别分隔符与文本内容
在测试hive的load性能时,我们在建表时指定使用|作为分隔符。这样就需要考虑一个问题:如果外部文本中|作为文本内容出现时,如何区分到底是分隔符还是文本内容。 首先测试hive是否能智能区分分隔符与文本内容,结果表明:…