文章地址:http://www.haha174.top/article/details/253452 项目源码:https://github.com/haha174/spark.git 1.简介 parquet 是面向分…
标签:parquet
Hive实践分享之存储和压缩的坑
在学习大数据技术的过程中,HIVE是非常重要的技术之一,但我们在项目上经常会遇到一些存储和压缩的坑,本文通过科多大数据的武老师整理,分享给大家。 大家都知道,由于集群资源有限,我们一般都会针对数据文件的「存储结构」和「压…
12.spark sql之读写数据
简介 Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。 当只使用一部分字段时,Spark SQL可以智能地只扫描这些字…
Spark与Apache Parquet
七十年代时,有一长辈连练铁砂掌,功夫成了之后,可以掌断五砖,凌空碎砖,威风得不得了。时至八十年代,只能掌断三砖。到九十年代只能一砖一砖的断了。他说,一直以为功力退步了,后来才知道烧砖的配方改了。 数据压缩 前言 前两篇将…
spark 读取 hdfs 数据分区规则
下文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParq…
一文学会绕过Hive存储和压缩的坑
在学习大数据技术的过程中,HIVE是非常重要的技术之一,但我们在项目上经常会遇到一些存储和压缩的坑,本文通过科多大数据的武老师整理,分享给大家。 大家都知道,由于集群资源有限,我们一般都会针对数据文件的「存储结构」和「压…
hive/impala使用列式存储追加一列数据的可行性
我们知道parquet文件格式是不能进行update操作的。但是是否可以对其进行添加一列数据呢? 先看看parquet文件长什么样 Parquet文件是以二进制方式存储的,是不可以直接读取和修改的,Parquet文件是自…
hive 插入parquet二级分区表数据倾斜优化
单个表每天数据有50亿左右。需用二级分区优化该表。 1、最初查询 insert into table xx_parquet_v2 PARTITION(dt, uiappid) select %s from xxx whe…