如何安装docker 以我的ubuntu x86_64 16.04为例,参照docker官网的这篇文章就可以解决。ubuntu上安装docker-ce 具体步骤为 清理掉原有安装的docker后 sudo apt-get…
标签:hive
hive sql常用技巧
1.多行合并 多行合并常用于做区间统计,通过定义一定的金额区级,将上亿的记录降维为不同区间内总数。概括来说就是多映射到一。典型场景:基于用户交易天流水,计算每天不同金额段的金额笔数。 如用户的天交易流水表结构如上,需要计…
Apache Hive-2.3.0 快速搭建与使用
Hive 简介 Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (…
Hive集群合并之应用端的负载均衡算法
0.背景 有这么一个场景,我们有两个Hive集群,Hive集群1(后面成为1号集群)是一直专享于数据计算平台的,而Hive集群2(后面成为2号集群)是用于其他团队使用的,比如特征,广告等。而由此存在两个主要问题:a) 两…
Hive在小部件上拆分ORC文件
create table n_data(MARKET string,CATEGORY string,D map<string,string>,monthid int,value DOUBLE) STORED …
apache-pig – 与猪一起使用Hive
我的hive查询有多个外连接,执行时间很长.我想知道将它分成多个较小的查询并使用pig来进行转换是否有意义. 有没有办法在猪脚本中查询hive表或读取hive表数据? 谢谢 最佳答案 Howl project的目标是允许…
apache-spark – 在循环内使用sparkDF.write.saveAsTable()导致作业之间的延迟呈指数增长
我需要在for循环中执行一组不同的hive查询. hc=HiveContext(sc) queryList=[set of queries] for i in range(0,X): hc.sql(queryList[i…
apache-spark – 使用Spark SQL将数据插入静态Hive分区
我无法弄清楚如何使用Spark SQL将数据插入到Hive表的静态分区中.我可以使用这样的代码写入动态分区: df.write.partitionBy("key").insertInto("my_table") 但是,我…
SemanticException Column xx Found in more than One Tables/Subqueries
执行hiveql时报错: SemanticException Column xx Found in more than One Tables/Subqueries Hive中有两张表中拥有同一个字段名称,在这两个表做关联…
按日期范围读取Hive表中的多个文件
我们假设我每天以一种格式存储一个文件: /path/to/files/2016/07/31.csv /path/to/files/2016/08/01.csv /path/to/files/2016/08/02.csv …
实训总结20170917
hive介绍 Hive 基于Hadoop的一个数据仓库工具,构建于hadoop的hdfs和mapred之上,用于管理和查询结构化/非结构化数据的数据仓库。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。…
为啥说用了Hbase速度会变快???
都知道数据仓库现在一般来说是Hive和kafka,数据平台目前还使用的是hive,但是hive的查询是很慢的,所以为了效率我们引入了Kylin,Kylin并没有大数据存储功能,它所做的只是将数据仓库里的数据预计算,然后存…