Hive是一个HDFS上的sql执行引擎,它将sql语句转化为Hadoop上的map-reduce任务来执行。由于是写sql,所以使用Hive进行数据分析的好处是没有什么额外的学习成本,但是它是批量式处理的,可能会比较慢…
标签:hive
Hive 命令
Hive cli 显示当前数据库 hive> set hive.cli.print.current.db=true; https://blog.csdn.net/Veechange/article/details/…
黑猴子的家:Hive 修改数据库
用户可以使用 alter database命令为某个数据库的dbproperties设置键-值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置。 hive (…
Spark 数据倾斜调优
1.使用Hive ETL预处理数据 方案适用场景:如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个 key对应了100万数据,其他key才对应了10条数据),而且业务场景需要频繁使用Spar…
hive+mysql整合时出现 Column length too big for column‘text’ use BLOB or TEXT instead
安装hive时,一定要注意hadoop和hive的版本问题 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Column length too big…
presto、druid、sparkSQL、kylin的对比分析,如性能、架构等,有什么异同?
作者:iseeyou 链接:https://www.zhihu.com/question/41541395/answer/114798939 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处…
impala部署过程中遇到的坑,以及解决办法
1. 寻找问题原因 在两个集群上遇到的问题都是catalog启不起来,产生问题的原因是不同的,但是impala-shell中给出的报错信息都是一样的,不能反映具体原因,需要以日志给出的信息为准 /usr/lib/impa…
Hive严格模式
定义:防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格模式下无法执行。 通过设置hive.mapred.mode = strict ,可以禁止三种类型的查询: 1)带有分区的表查询 在执行分区表的时候…
[转]Hbase,Hive,Pig比较
Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不…
黑猴子的家:Hive 分区表基本操作
分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指…
Hive权威指南读书笔记0002
第5章 HiveQL数据操作 在上一章中介绍了HiveQL的数据定义部分,所谓数据定义就是对数据库中表结构的增删改查;而数据操作则是关注对数据库中表的数据的操作,即如何装载数据到表中,如何从这些表中查询想要的数据。对于其…
hive内部表与外部表
hive内部表与外部表 hive的内部表与外部表之间的区别 区别 创建表过程 删除表过程 内部表 会将数据移动到数据仓库指向的路径 元数据和实际数据一起删除 外部表 仅记录数据所在的路径,不会对数据的位置坐任何改变 只删…