分类：Hive

解读《Hadoop 构建数据仓库实践》

书中构建一个数据仓库示例模型的讲解，实实在在的从 0 到 1 讲述了一个基于big data 的数据仓库原型的搭建。可以看做是一个非典型的应用场景。里面有很多的点，是可以值得拿出来好好深入思考的，举一反三在数据建模这块…

like语句 1、sql： select * from brrps_mart_org_map where part_date =20170208 and branch03_name like ‘%北京%‘ 2…

Hive在进行数据查询时会对整个表进行扫描，当表很大时将会消耗很多时间。有时候对表中比较关心某一部分的数据进行扫描，因此Hive引入分区（Partition）的概念。 Hive的分区是在Hive的表结构下根据分区的字段设…

SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计 – lxw的大数据田地 http://lxw1234.com/archives/2015/11/552.htm Flume+Kafka…

市面上目前的大数据库比较多，本篇对于其中的几个进行对比总结。 ElasticSearch和impala 首先，对于两个数据库作出说明，有hive查询比较慢，hbase会针对于列的查询不太友好，所以CDH推出了impala…

一、join优化 ** Join查找操作的基本原则：** 应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目…

Hive开发UDF的步骤：继承适当的UDF类或GenericUDF类覆盖适当的方法并实现相应的逻辑功能编译构建成jar包把编译好的jar包放到适当的HDFS路径中用jar创建临时/永久函数检查创建的函数不用…

1.Hive内置函数：在Hive中系统给我们内置了很多函数具体参考官方地址看下官网给我们的介绍: SHOW FUNCTIONS; --查看所有内置函数 DESCRIBE FUNCTION <function…

本文主要为了测试，在有数据的分区表中增加新的一个非分区字段后，新数据加入表中是否正常。原始数据 1;zhangsan 2;zhangsan 3;zhangsan 4;lisi 5;lisi 6;lisi 创建分区表 c…

在hive表中查找某个字段值为float类型的数据时，float类型可能存在精度问题造成的比较不准确 http://chengjianxiaoxue.iteye.com/blog/2276272 在比较浮点数时，有一个问…

Hive SQL执行计划深度解析 – An342647823的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/an342647823/article…

马士兵之大数据hive1_腾讯视频