Hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,用来进行数据提取、转换、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制。可以把Hadoop下结构化数据文件映射为一张成Hiv…
分类:Hive
Oozie:工作流调度框架
一、为什么需要Oozie? 一项工作可能需要多个hadoop作业(job)来协作完成,而一个job的输出可能作为另一个job的输入,此时…
大数据学习线路图
Java教程 Java 教程Java 简介Java 开发环境配置Java 基础语法Java 对象和类Java 基本数据类型 Java变量类型Java修饰符Java运算符Java循环结构Java分支结构Java Numbe…
UDF
使用UDF add jar hdfs://${HadoopName}/${path}/${XXXX.jar}; CREATE temporary function ${functionName} AS ‘${…
Hive与MySQL的不同之处之类型转换cast和covert函数
Hive: cast(xxx AS 类型) 如: cast(tm AS bigint) 附上Hive基本数据类型: 数据类型 所占字节 开始支持版本 TINYINT 1byte,-128 ~ 127 SMALLINT 2…
hive优化参数说明
1,一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤…
Spark填坑之旅
0 背景 公司最近迁移 Hadoop 集群到堡垒机内部,我顺手把这些机器统一重命名了一下,折腾了几个小时,集群终于正常上线。但是其他部门的同事跑来说 spark-sql 不能建表了,报错如下: Error in quer…
大数据常用文件格式介绍
图片看不见的话可以看我CSDN上的文章: https://blog.csdn.net/u013332124/article/details/86423952 最近在做hdfs小文件合并的项目,涉及了一些文件格式的读写,比…
Hive笔记-bucket介绍
hive-bucket介绍 http://blog.csdn.net/yfkiss/article/details/7816916 Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一…
CDH 使用 Hive schematool
翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hive_schema_tool.html 版本: 5.14.2 使用…
Hive与MySQL的不同之GROUP BY
Hive与MySQL的不同之GROUP BY Hive: DESC city_info 0 city_id string 1 parent_id string 2 name string 3 type string SE…
(五)Hive自定义函数与transform的使用
hive是给了我们很多内置函数的,比如转大小写,截取字符串等,具体的都在官方文档里面。但是并不是所有的函数都能满足我们的需求,所以hive提供了给我们自定义函数的功能。 1、至于怎么测试hive为我们提供的函数 因为my…