标签：parquet

12.spark sql之读写数据

简介 Spark SQL支持多种结构化数据源，轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。当只使用一部分字段时，Spark SQL可以智能地只扫描这些字…

下文以读取 parquet 文件 / parquet hive table 为例： hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParq…

单个表每天数据有50亿左右。需用二级分区优化该表。 1、最初查询 insert into table xx_parquet_v2 PARTITION(dt, uiappid) select %s from xxx whe…