书中构建一个数据仓库示例模型的讲解,实实在在的从 0 到 1 讲述了一个基于big data 的数据仓库原型的搭建。可以看做是一个非典型的应用场景。里面有很多的点,是可以值得拿出来好好深入思考的,举一反三 在数据建模这块…
分类:Hive
hive语句
like语句 1、sql: select * from brrps_mart_org_map where part_date =20170208 and branch03_name like ‘%北京%‘ 2…
Hive表分区
Hive在进行数据查询时会对整个表进行扫描,当表很大时将会消耗很多时间。有时候对表中比较关心某一部分的数据进行扫描,因此Hive引入分区(Partition)的概念。 Hive的分区是在Hive的表结构下根据分区的字段设…
[SQL]spark sql 直接查询hive或impala中的数据
SparkSQL结合SparkStreaming,使用SQL完成实时计算中的数据统计 – lxw的大数据田地 http://lxw1234.com/archives/2015/11/552.htm Flume+Kafka…
大数据库分析
市面上目前的大数据库比较多,本篇对于其中的几个进行对比总结。 ElasticSearch和impala 首先,对于两个数据库作出说明,有hive查询比较慢,hbase会针对于列的查询不太友好,所以CDH推出了impala…
hive 查询性能优化总结
一、join优化 ** Join查找操作的基本原则:** 应该将条目少的表/子查询放在 Join 操作符的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目…
Hive自定义函数(UDF)(0925)
Hive开发UDF的步骤: 继承适当的UDF类或GenericUDF类 覆盖适当的方法并实现相应的逻辑功能 编译构建成jar包 把编译好的jar包放到适当的HDFS路径中 用jar创建临时/永久函数 检查创建的函数 不用…
Hive内部函数简介及查询语法
1.Hive内置函数: 在Hive中 系统给我们内置了很多函数 具体参考官方地址 看下官网给我们的介绍: SHOW FUNCTIONS; --查看所有内置函数 DESCRIBE FUNCTION <function…
修改hive分区表,在分区列前增加一个字段
本文主要为了测试,在有数据的分区表中增加新的一个非分区字段后,新数据加入表中是否正常。 原始数据 1;zhangsan 2;zhangsan 3;zhangsan 4;lisi 5;lisi 6;lisi 创建分区表 c…
hive查找float数据精度问题
在hive表中查找某个字段值为float类型的数据时,float类型可能存在精度问题造成的比较不准确 http://chengjianxiaoxue.iteye.com/blog/2276272 在比较浮点数时,有一个问…
Hive SQL执行计划深度解析
Hive SQL执行计划深度解析 – An342647823的专栏 – 博客频道 – CSDN.NET http://blog.csdn.net/an342647823/article…
马士兵之大数据hive1
马士兵之大数据hive1_腾讯视频