标签：hive

Hive简易教程 - 数据分析

Hive是一个HDFS上的sql执行引擎，它将sql语句转化为Hadoop上的map-reduce任务来执行。由于是写sql，所以使用Hive进行数据分析的好处是没有什么额外的学习成本，但是它是批量式处理的，可能会比较慢…

Hive cli 显示当前数据库 hive> set hive.cli.print.current.db=true; https://blog.csdn.net/Veechange/article/details/…

用户可以使用 alter database命令为某个数据库的dbproperties设置键-值对属性值，来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的，包括数据库名和数据库所在的目录位置。 hive (…

1.使用Hive ETL预处理数据方案适用场景：如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀（比如某个 key对应了100万数据，其他key才对应了10条数据），而且业务场景需要频繁使用Spar…

安装hive时，一定要注意hadoop和hive的版本问题 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Column length too big…

作者：iseeyou 链接：https://www.zhihu.com/question/41541395/answer/114798939 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处…

1. 寻找问题原因在两个集群上遇到的问题都是catalog启不起来，产生问题的原因是不同的，但是impala-shell中给出的报错信息都是一样的，不能反映具体原因，需要以日志给出的信息为准 /usr/lib/impa…

定义：防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格模式下无法执行。通过设置hive.mapred.mode = strict ，可以禁止三种类型的查询： 1）带有分区的表查询在执行分区表的时候…

Pig 一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不…

分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指…

第5章 HiveQL数据操作在上一章中介绍了HiveQL的数据定义部分，所谓数据定义就是对数据库中表结构的增删改查；而数据操作则是关注对数据库中表的数据的操作，即如何装载数据到表中，如何从这些表中查询想要的数据。对于其…

hive内部表与外部表 hive的内部表与外部表之间的区别区别创建表过程删除表过程内部表会将数据移动到数据仓库指向的路径元数据和实际数据一起删除外部表仅记录数据所在的路径，不会对数据的位置坐任何改变只删…