分类：Hive

MapReduce Map端 join 的一个例子

什么是 Join Join，翻译过来是加入、连接、结合的意思。而在数据处理中，join 是对表的操作。表是数据存储的一种形式，就像 excel 中的表一样。我们为了想得到想要的结果，需要分析多张表，而把两张或更…

之前有写过pandas和numpy的一些浅显的使用，没有系统的学习所有的API，基本上还是在够用的基础上，以后如果需要更复杂的数据需求再进一步研究吧。最近转做后台，之前在写numpy使用的时候立了个flag说要做一些有产…

码代码，写程序，总是麻烦一大堆。Hive在存储和压缩的时候，总是避免不了踩进坑里面。今天，我们一起来看看一位大神Hive实践分享：存储和压缩的坑。这位大神最近在阿里云跑数据，想分析一下借款用户的行为路径轨迹，由于数据量…

也就是说大家以后不必再用“select count(*) from user ”去查询user表的大小了，因为HIVE会将这个语句翻译为MR作业在HADOOP上运行，效率非常低。关于HIVE的SELECT count(…

hive内部表与外部表区别详细介绍-Hive-about云开发 http://www.aboutyun.com/thread-7458-1-1.html 最后归纳一下Hive中表与外部表的区别： 1、在导入数据到外部表，…

Hive窗口函数CUME_DIST、PERCENT_RANK入门 1. 数据说明现有 hive 表 cookie3, 内容如下: hive> select * from cookie3; d1 user1 100…

参考维基百科、Hadoop Hive概念学习系列之hive的正则表达式初步（六）和Hive 正则匹配函数之前没有在意过正则表达式，但是工作组不可避免的遇到了，感觉也比较重要，就花点时间理解一下。一、正则表达式简介正…

Hive入门复习Hadoop： 1、Hadoop是什么存储 HDFS 计算 MapReduce 资源调度 YARN 2、HDFS的访问方式 Shell CLI ：Hadoop/hdfs fs …… Java API …

注意，hive跑完的分隔符是\001，八进制编码然后就能对跑完的数据进行二次建表查询 create external table user_click (date string,hour string,user_cou…

Spark是什么 a) 是一种通用的大数据计算框架 b) Spark Core 离线计算 Spark SQL 交互式查询 Spark Streaming 实时流式计算 S…

创建hbase表 create 'testTable',{NAME=>'data', VERSIONS =>1},{NAME=>'jsonStr', VERSIONS=>1} hbase表映射到h…

简介工作中我们遇到了把Hive数据同步到Clickhouse的业务需求，一开始我们写Spark任务，用SparkSQL读Hive，再用JDBC写入到Clickhouse。后来，随着要同步的表越来越多，每次都写Spar…