驱动包–mysql-connector-java.jar 安装mysql yum install wget wget -i -c http://dev.mysql.com/get/mysql57-commun…
分类:Hive
hive udf 函数:MD5
利用 hive 做数据查询或者分析的时候,原生的 hive 函数可能无法满足我们的需求,这时候我们可以自定义 hive udf,函数; 自定义 hive udf 函数,有以下两点要求: 函数类必须继承 UDF 类 必须实…
Hive的安装
我们使用mysql来存储hive的元数据(metadata),这里关于元数据以及元数据的存储方式摘录了这篇文章里的部分内容 Hive安装配置指北(含Hive Metastore详解) 1.1 Metadata、Metas…
impala 概念及其特性
impala是什么? Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C ++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它提供了高性能和…
使用Sqoop从MySQL导入数据到Hive和HBase
原文地址 http://www.cnblogs.com/wgp13x/p/5028220.html 基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.…
Hive表分区
Hive在进行数据查询时会对整个表进行扫描,当表很大时将会消耗很多时间。有时候对表中比较关心某一部分的数据进行扫描,因此Hive引入分区(Partition)的概念。 Hive的分区是在Hive的表结构下根据分区的字段设…
hive sql优化实例
Hive中SQL的优化技巧,核心思想是避免数据倾斜。 1、避免在同一个查询中同时出现count, distinct,group by 2、left join 时把小数据量的表放在前面 3、尽量使用子查询 参数配置 SET…
CentOS 7 下 Hive安装指南 及 WordCount Hive实现
(默认装好jdk hadoop) 首先,安装MySQL 在MySQL官网中下载YUM源rpm安装包:http://dev.mysql.com/downloads/repo/yum/ 下载mysql源安装包 shell&g…
科多大数据开发技术学习 HBase和Hive的查询处理速度对比
今天科多大数据给大家分享一下关于HBase和Hive的查询处理速度对比,首先Hive的底层首先是MR,是属于批处理处理时间相对较长,不属于实时读写,在其架构上HBase和Hive有很大的区别,下面和科多大数据来看一下吧。…
Hive窗口函数01-SUM、MIN、MAX、AVG
Hive窗口函数sum、min、max、avg入门 1. 数据说明 现有 hive 表 cookie1, 内容如下: hive> select * from cookie1; cookie1 2015-04-10 …
大数据实时查询-Presto集群部署搭建
Presto介绍 Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window…