1. 注意点 1.正则转义,反向引用 select regexp_replace('lat:test,lon:test,province:prov,city:city,area:area,cnt:3','.*provin…
分类:Hive
Hive 数据导入HBase的2种方法详解
Hive 数据导入HBase的2种方法详解 – 王建奎Jerrick的个人页面 – 开源中国社区 https://my.oschina.net/wangjiankui/blog/497658 Hi…
Hadoop 之上的数据建模 - Data Vault 2.0
对比传统的基于 RDBMS 之上的数据仓库和商业智能项目,尝试着说说,Hadoop 之上的数据仓库,从ETL, 数据存储,到分析展现。重点围绕数据建模方面做分析,因为这是本文的重点,介绍一份新的数据建模方式 Data V…
hive sql数据库跑批插件(hive,impala)
hive跑批很多时候有很复杂的逻辑hive有没有这些功能,只能用shell夹杂hive-sql。shell在取配置库的时候也有些尴尬不是很方便。 附上代码连接和案例样本 场景hive,impala(jdbc接口都可以试试…
HiveQL 数据操作
数据操作 • LOAD DATA语句:向数据表内加载文件 • INSERT语句:将查询结果插入Hive表 LOAD DATA语句 一般来说,在SQL创建表后,我们就可以使用INSERT语句插入数据。但在Hive中,可以使…
HIVE数据导出CSV
此前一直使用HIVE的Insert overwrite到本地目录的方法进行文件导出,但问题多多。主要原因是分隔符经常出现在字段中,实操中用竖杠|分隔问题较少。 insert overwrite local directo…
关于Oozie
这是一篇学习和了解Oozie的文章。 什么是Oozie 简而言之,Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。 Oozie有什么作用 在Hadoop中执行的任务有时候需要把多个Map/Red…
Hive的管理
Hive的启动方式 CLI(命令行)方式 直接输入#<HIVE_HOME>/bin/hive的执行程序 #hive >quit; 或者输入 #hive –service cli #hive …
HiveQL 数据定义:分区
分区 • 建立分区表 • 增加分区 • 重命名分区 • 删除分区 hive组织表到分区。它是将一个表到基于分区列,如日期,城市和部门的值相关方式。使用分区,很容易对数据进行部分查询。 表或分区可以细分成桶,以提供额外的结…
hive 复制整段语句是出现 Display all 475 possibilities? (y or n)错误的处理方法
在用hive时,复制一整片代码运行,发现好多提示: Display all 475 possibilities? (y or n) 导致复制失败,一查原因,原来是复制的代码块中包含了Tab缩进,只要将原来复制的代码中的T…
使用Hive随机抽样
1 在hive中使用rand简单随机抽样 select a.*,rand(12345) as random from tripdata a; country city visitors random 阿联酋 阿布扎比 1…
Hive 分区字段限制
hivesql分区字段不可以有中文,否则会报错如下: Failed with exception MetaException(message:javax.jdo.JDOException: Exception throw…