简介 Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。 当只使用一部分字段时,Spark SQL可以智能地只扫描这些字…
标签:parquet
spark 读取 hdfs 数据分区规则
下文以读取 parquet 文件 / parquet hive table 为例: hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParq…
hive 插入parquet二级分区表数据倾斜优化
单个表每天数据有50亿左右。需用二级分区优化该表。 1、最初查询 insert into table xx_parquet_v2 PARTITION(dt, uiappid) select %s from xxx whe…