分类：Hive

Presto介绍与常用查询优化方法

Presto Hive使用MapReduce作为底层计算框架，是专为批处理设计的。但随着数据越来越多，使用Hive进行一个简单的数据查询可能要花费几分到几小时，显然不能满足交互式查询的需求。 2012年秋季开始开发，目前…

一. 数据库 1. 查询数据库列表 show databases ; 2. 使用指定的数据库 use default; 3. 查看数据库的描述信息 desc database extended db_hive_03 ; …

count命令 count ‘t1′ count ‘t1′, INTERVAL => 100000 count ‘t1′, CACHE => 1000 count ‘t1′, INTERVAL => 1…

一、Hive安装及服务启动 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。简单来说，Hive就是在Ha…

1.hive> show functions; 这些都是内置的函数如何查看函数怎么使用？ 1）hive> desc function upper; 2）hive> desc function exte…

1.下载序列化包 2.添加json序列化包 add jar /Users/zhanxf/hadoop/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar; …

对hive输入格式设置为CombineHiveInputFormat的进行分析map数是如何计算的。 set hive.input.format=org.apache.hadoop.hive.al.io.CombineH…

软件包 CDH 5.7.6 Cloudera Manager + CDH安装请点击 kylin-2.0.0kylin官网 kylin的安装吐槽一下，虽然网上关于kylin的安装都很简单，但是实际安装远远没有那么简单。 …

获取当前UNIX时间戳函数: unix_timestamp语法: unix_timestamp() 返回值: bigint 说明: 获得当前时区的UNIX时间戳举例： hive>selectunix_…

简述 HDFS（Hadoop Distributed File System），作为Google File System（GFS）的实现，是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式…

需求有2张大的mysql表，量级分别是1亿和4.5亿（太大了，DBA的同学正在考虑分表），而且数据是增量的，需要写spark任务做处理，直接读取mysql有点吃力，想通过sqoop定时增量直接导入hive，然后spar…

Hive开发UDF的步骤：继承适当的UDF类或GenericUDF类覆盖适当的方法并实现相应的逻辑功能编译构建成jar包把编译好的jar包放到适当的HDFS路径中用jar创建临时/永久函数检查创建的函数不用…