hive在跑数据时经常会出现数据倾斜的情况。使的作业经常reduce时卡住较长时间,有时完成任务的百分百比甚至会回退,如果你碰到这种情况,”恭喜“你,你遇到数据倾斜了。 以下是几种常见的数据倾斜场景: 1、join的ke…
分类:Hive
Hadoop core-site.xml相关配置
hdfs系统会把用到的数据存储在core-site.xml中由hadoop.tmp.dir指定,而这个值默认位于/tmp/hadoop-${user.name}下面, 由于/tmp目录在系统重启时候会被删除,所以应该修改…
==Hive的主要缺点 & 对比impala/kylin
一套数据,多种引擎(impala/Hive/kylin) – 大数据和云计算技术 (欢迎关注同名微信公众号) – ITeye技术网站 http://jiezhu2007.iteye.com/blo…
Hive(三) 数据类型
Hive既有大多数关系数据库中的基本类型,又有集合这种复杂类型。 基本类型 数据类型 大小 范围 示例 TINYINT 1byte -128 ~ 127 100Y SMALLINT 2byte -32,768 ~ 32,…
spark-sql thriftserver 方式使用hive udf函数
1、在hive中注册udf函数 add jar hdfs://hdp-hdfs01/apps/udf.jar; –添加jar,jar存放在hdfs上 create function your_ud…
hive的这些事(一)——hive数据迁移
比如需要把生产的hive集群数据迁移到另一个集群,hive提供了2个命令工具,可以实现表的批量迁移。 [export/import] 设置默认需要导出的hive数据库 在hive目录/etc/alternatives/h…
处理txt文件并去重处理
1.排序 cat 200W10.txt 200W1.txt 200W3.txt 200W5.txt 200W7.txt 200W9.txt 200W11.txt…
本地化读取 hive库做模型训练
我们在做模型训练的时候,大多时候,数据样本可能是离线的 excel 文件 csv文件或者是txt文件,也或者是放在 HDFS上的文件 或者是hive库 更或者是 mysql redis MongoDB里,我们这次简单说一…
Hive简易教程 - 杂项
设置打印列名 set hive.cli.print.header=true; 设置动态分区 set hive.exec.dynamic.partition.mode=nonstrict; hive cli默认的动态分区数…
hive服务启动异常定位记录
环境说明 hadoop-2.7.4 hive-2.3.2 hbase-1.4.2 jdk1.8.0_161 问题现象 原先启动hiveserver2和metastore的两个服务一直运行状况良好,重启这个两个服务后都出现…
16.apache-hadoop之hive安装
1.在hive官网下载hive tar zxvf apache-hive-1.2.2-bin.tar.gz mv apache-hive-1.2.2-bin hive 2.修改环境变量 vim /etc/profile …
12.spark sql之读写数据
简介 Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。 当只使用一部分字段时,Spark SQL可以智能地只扫描这些字…