标签:rdd

Spark-RDD分区

RDD分区 在分布式程序中,通信的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。所以对RDD进行分区的目的就是减少网络传输的代价以提高系统的性能。 RDD的特性 在讲RDD分区之前,先说一下R…