环境初始化 预先安装mysql 解压安装包 安装Hive 1.解压 tar -zxf apache-hive-3.1.0-bin.tar.gz Set the environment variable HIVE_HOME…
标签:hive
实时导入本地日志文件到impala中
hadoop上的数据仓库很多,这里为什么说一定要导入到impala中呢?因为impala和hive之间并不是完全互通的,hive支持的某些压缩格式impala并不支持。因为这个问题,笔者还踩了个坑。一个很简单的任务花了1…
Hive SQL 相关
1.Hive 连接查询JOIN 2.hive 导入数据的方式 3.hadoop streaming内存超限解决方案 4.hive join ..on连接中 and与where的取舍 5.Hive – 内表和外…
Hive使用摘要
之前有写过pandas和numpy的一些浅显的使用,没有系统的学习所有的API,基本上还是在够用的基础上,以后如果需要更复杂的数据需求再进一步研究吧。最近转做后台,之前在写numpy使用的时候立了个flag说要做一些有产…
Hive实践分享:存储和压缩的坑
码代码,写程序,总是麻烦一大堆。Hive在存储和压缩的时候,总是避免不了踩进坑里面。今天,我们一起来看看一位大神Hive实践分享:存储和压缩的坑。 这位大神最近在阿里云跑数据,想分析一下借款用户的行为路径轨迹,由于数据量…
HIVE的SELECT count(*) 优化
也就是说大家以后不必再用“select count(*) from user ”去查询user表的大小了,因为HIVE会将这个语句翻译为MR作业在HADOOP上运行,效率非常低。 关于HIVE的SELECT count(…
hive内部表与外部表区别
hive内部表与外部表区别详细介绍-Hive-about云开发 http://www.aboutyun.com/thread-7458-1-1.html 最后归纳一下Hive中表与外部表的区别: 1、在导入数据到外部表,…
Hive窗口函数03-CUME_DIST、PERCENT_RANK
Hive窗口函数CUME_DIST、PERCENT_RANK入门 1. 数据说明 现有 hive 表 cookie3, 内容如下: hive> select * from cookie3; d1 user1 100…
Hive正则表达式
参考维基百科、Hadoop Hive概念学习系列之hive的正则表达式初步(六)和Hive 正则匹配函数 之前没有在意过正则表达式,但是工作组不可避免的遇到了,感觉也比较重要,就花点时间理解一下。 一、正则表达式简介 正…
hive跑完结果分隔符问题
注意,hive跑完的分隔符是\001,八进制编码 然后就能对跑完的数据进行二次建表查询 create external table user_click (date string,hour string,user_cou…
创建Hbase表&Hbse表映射到hive表
创建hbase表 create 'testTable',{NAME=>'data', VERSIONS =>1},{NAME=>'jsonStr', VERSIONS=>1} hbase表映射到h…
Logstash同步Hive和Clickhouse
简介 工作中我们遇到了把Hive数据同步到Clickhouse的业务需求,一开始我们写Spark任务,用SparkSQL读Hive,再用JDBC写入到Clickhouse。 后来,随着要同步的表越来越多,每次都写Spar…