hive性能优化 一、Map阶段的优化: (控制hive任务中的map数,确定合适的map数,以及每个map处理合适的数据量)。 map个数影响因子: input目录中文件总个数; input目录中每个文件大小; 集群设…
分类:Hive
hive执行计划举例
执行计划例子: insert overwrite TABLE lpx SELECT t1.bar, t1.foo, t2.foo FROM pokes t1 JOIN invites t2 ON (t1.bar = t2…
将csv或者Excel文件导入到hive
1. 将csv或Excel文件转换为文本,以逗号或者制表符都可以: xigua.txt id,color,root,stroke,venation,umbilical,touch,status 1,青绿,蜷缩,浊响,清晰…
hive sql里的聚合和排序
五种关键字是有严格顺序的 一个SQL语句往往会产生多个临时视图,那么这些关键字的执行顺序就非常重要了,因为你必须了解这个关键字是在对应视图形成前的字段进行操作还是对形成的临时视图进行操作,这个问题在使用了别名的视图尤其重…
hive内部表与外部表区别详细介绍
问题导读: 1.创建内部表与外部表的区别是什么? 2.external关键字的作用是什么? 3.外部表与内部表的区别是什么? 4.删除表的时候,内部表与外部表有什么区别? 5.load data local inpath…
HIVE中regexp_extract用法
select province_name,regexp_extract(province_name,'(.+)(市)',1) from areas limit 10; +----------------+------+-…
Hive获取当天时间和计算时差
获取当天的时间:SELECT from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss')。 计算时间差:SELECT datediff('2016-12-07','2016…
IDEA下写hive的udf(踩坑教程)
配置maven的过程网上有很多这里就不写了。 UDF 用户自定义函数(user defined function)–针对单条记录。 创建函数流程 1、自定义一个Java类 2、继承UDF类 3、重写evaluate方法 …
java读取hive的orc文件
hive API2 hive udf 读取HDFS的orc文件 package hive_udf_province; import org.apache.hadoop.conf.Configuration; import…
Hive中concat_ws合并field的用法
从数据库里取N个字段,然后组合到一起用逗号“,”分割显示,起初想到用concat()来处理,好是麻烦,没想到在手册里居然有提到concat_ws(),非常好用。 CONCAT_WS(separator, str1, st…
hive配置
Hive Configuration Variables hive.exec.compress.output mapred最终的输出是否压缩 默认false hive.exec.compress.intermediate…
活用awk出数据
问题表述 最近业务线故障,一些用户受到了影响。产品经理急切需要知道,这次事故是否导致用户流失,换句话希望看看这些用户近一个星期的购物留存。所以产品经理给数据工程师提供了一个大概有1.4万的受影响用户id的文本文件acci…