RDD的数据分区策略由Partitioner数据分区器控制,Spark提供两个类型分片函数,如下: Partitioner类的代码依赖结构 Partitioner Partitioner numPartitions:返回…
标签:partitioner
spark-partitionBy
partitionBy 重新分区, repartition默认采用HashPartition分区, 关于数据倾斜https://www.jianshu.com/writer#/notebooks/11387253/not…