Presto Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。 2012年秋季开始开发,目前…
分类:Hive
Hadoop-Hive常用基础HQL语句
一. 数据库 1. 查询数据库列表 show databases ; 2. 使用指定的数据库 use default; 3. 查看数据库的描述信息 desc database extended db_hive_03 ; …
HBase统计表行数的方法
count命令 count ‘t1′ count ‘t1′, INTERVAL => 100000 count ‘t1′, CACHE => 1000 count ‘t1′, INTERVAL => 1…
搭建Hive数据仓库+python操作Hive
一、Hive安装及服务启动 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在Ha…
Hive 函数
1.hive> show functions; 这些都是内置的函数 如何查看函数怎么使用? 1)hive> desc function upper; 2)hive> desc function exte…
hive
1.下载序列化包 2.添加json序列化包 add jar /Users/zhanxf/hadoop/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar; …
hive map数的计算-combinehiveinputformat
对hive输入格式设置为CombineHiveInputFormat的进行分析map数是如何计算的。 set hive.input.format=org.apache.hadoop.hive.al.io.CombineH…
CDH+Kylin安装
软件包 CDH 5.7.6 Cloudera Manager + CDH安装请点击 kylin-2.0.0kylin官网 kylin的安装 吐槽一下,虽然网上关于kylin的安装都很简单,但是实际安装远远没有那么简单。 …
hive函数总结-日期函数
获取当前UNIX时间戳函数: unix_timestamp语法: unix_timestamp() 返回值: bigint 说明: 获得当前时区的UNIX时间戳 举例: hive>selectunix_…
HDFS
简述 HDFS(Hadoop Distributed File System),作为Google File System(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式…
sqoop定时增量导入mysql数据到hdfs(hive)
需求 有2张大的mysql表,量级分别是1亿和4.5亿(太大了,DBA的同学正在考虑分表),而且数据是增量的,需要写spark任务做处理,直接读取mysql有点吃力,想通过sqoop定时增量直接导入hive,然后spar…
Hive自定义函数(UDF)(0925)
Hive开发UDF的步骤: 继承适当的UDF类或GenericUDF类 覆盖适当的方法并实现相应的逻辑功能 编译构建成jar包 把编译好的jar包放到适当的HDFS路径中 用jar创建临时/永久函数 检查创建的函数 不用…