repartitionAndSortWithinPartitions算是一个高效的算子,是因为它要比使用repartition And sortByKey 效率高,这是由于它的排序是在shuffle过程中进行,一边shu…
标签:repartition
1sparksql优化之coalesce
一、coalesce算址的使用 使用coalesce算子,可以手动减少DataFrame的partition数量,并且不用触发shuffle,这也是coalesce跟repartition的区别。 repartition…