分类：Hive

hive-数据倾斜解决详解

hive在跑数据时经常会出现数据倾斜的情况。使的作业经常reduce时卡住较长时间，有时完成任务的百分百比甚至会回退，如果你碰到这种情况，”恭喜“你，你遇到数据倾斜了。以下是几种常见的数据倾斜场景：１、join的ke…

hdfs系统会把用到的数据存储在core-site.xml中由hadoop.tmp.dir指定，而这个值默认位于/tmp/hadoop-${user.name}下面，由于/tmp目录在系统重启时候会被删除，所以应该修改…

一套数据，多种引擎（impala/Hive/kylin） – 大数据和云计算技术（欢迎关注同名微信公众号） – ITeye技术网站 http://jiezhu2007.iteye.com/blo…

Hive既有大多数关系数据库中的基本类型，又有集合这种复杂类型。基本类型数据类型大小范围示例 TINYINT 1byte -128 ~ 127 100Y SMALLINT 2byte -32,768 ~ 32,…

1、在hive中注册udf函数 add jar hdfs://hdp-hdfs01/apps/udf.jar; –添加jar，jar存放在hdfs上 create function your_ud…

比如需要把生产的hive集群数据迁移到另一个集群，hive提供了2个命令工具，可以实现表的批量迁移。 [export/import] 设置默认需要导出的hive数据库在hive目录/etc/alternatives/h…

1.排序 cat 200W10.txt 200W1.txt 200W3.txt 200W5.txt 200W7.txt 200W9.txt 200W11.txt…

我们在做模型训练的时候，大多时候，数据样本可能是离线的 excel 文件 csv文件或者是txt文件，也或者是放在 HDFS上的文件或者是hive库更或者是 mysql redis MongoDB里，我们这次简单说一…

设置打印列名 set hive.cli.print.header=true; 设置动态分区 set hive.exec.dynamic.partition.mode=nonstrict; hive cli默认的动态分区数…

环境说明 hadoop-2.7.4 hive-2.3.2 hbase-1.4.2 jdk1.8.0_161 问题现象原先启动hiveserver2和metastore的两个服务一直运行状况良好，重启这个两个服务后都出现…

1.在hive官网下载hive tar zxvf apache-hive-1.2.2-bin.tar.gz mv apache-hive-1.2.2-bin hive 2.修改环境变量 vim /etc/profile …

简介 Spark SQL支持多种结构化数据源，轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。当只使用一部分字段时，Spark SQL可以智能地只扫描这些字…