什么是 Join Join,翻译过来是 加入、连接、结合的意思。 而在数据处理中,join 是对表的操作。表是数据存储的一种形式,就像 excel 中的表一样。 我们为了想得到想要的结果,需要分析多张表,而 把两张 或更…
分类:Hive
Hive使用摘要
之前有写过pandas和numpy的一些浅显的使用,没有系统的学习所有的API,基本上还是在够用的基础上,以后如果需要更复杂的数据需求再进一步研究吧。最近转做后台,之前在写numpy使用的时候立了个flag说要做一些有产…
Hive实践分享:存储和压缩的坑
码代码,写程序,总是麻烦一大堆。Hive在存储和压缩的时候,总是避免不了踩进坑里面。今天,我们一起来看看一位大神Hive实践分享:存储和压缩的坑。 这位大神最近在阿里云跑数据,想分析一下借款用户的行为路径轨迹,由于数据量…
HIVE的SELECT count(*) 优化
也就是说大家以后不必再用“select count(*) from user ”去查询user表的大小了,因为HIVE会将这个语句翻译为MR作业在HADOOP上运行,效率非常低。 关于HIVE的SELECT count(…
hive内部表与外部表区别
hive内部表与外部表区别详细介绍-Hive-about云开发 http://www.aboutyun.com/thread-7458-1-1.html 最后归纳一下Hive中表与外部表的区别: 1、在导入数据到外部表,…
Hive窗口函数03-CUME_DIST、PERCENT_RANK
Hive窗口函数CUME_DIST、PERCENT_RANK入门 1. 数据说明 现有 hive 表 cookie3, 内容如下: hive> select * from cookie3; d1 user1 100…
Hive正则表达式
参考维基百科、Hadoop Hive概念学习系列之hive的正则表达式初步(六)和Hive 正则匹配函数 之前没有在意过正则表达式,但是工作组不可避免的遇到了,感觉也比较重要,就花点时间理解一下。 一、正则表达式简介 正…
Hive入门
Hive入门 复习Hadoop: 1、Hadoop是什么 存储 HDFS 计算 MapReduce 资源调度 YARN 2、HDFS的访问方式 Shell CLI :Hadoop/hdfs fs …… Java API …
hive跑完结果分隔符问题
注意,hive跑完的分隔符是\001,八进制编码 然后就能对跑完的数据进行二次建表查询 create external table user_click (date string,hour string,user_cou…
spark大数据架构初学入门基础详解
Spark是什么 a) 是一种通用的大数据计算框架 b) Spark Core 离线计算 Spark SQL 交互式查询 Spark Streaming 实时流式计算 S…
创建Hbase表&Hbse表映射到hive表
创建hbase表 create 'testTable',{NAME=>'data', VERSIONS =>1},{NAME=>'jsonStr', VERSIONS=>1} hbase表映射到h…
Logstash同步Hive和Clickhouse
简介 工作中我们遇到了把Hive数据同步到Clickhouse的业务需求,一开始我们写Spark任务,用SparkSQL读Hive,再用JDBC写入到Clickhouse。 后来,随着要同步的表越来越多,每次都写Spar…