SPARK[RDD之dependencies]

Resilient Distributed Datasets

[rɪ’zɪlɪənt] 准确翻译为 容错的 并行的 数据结构 而不是弹性分布式数据集合
RDD提供了丰富的集合操作函数,来有别于hadoop中单调的mapreduce函数。

RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。例如map操作会产生narrow dependency,而join操作则产生wide dependency。

RDD是粗粒度数据结构,每一次操作都会生成一个新的RDD,在RDD之间就会形成一个链表关系的前后依赖关系。

《SPARK[RDD之dependencies]》 Paste_Image.png
《SPARK[RDD之dependencies]》 Paste_Image.png

    原文作者:北风第一支
    原文地址: https://www.jianshu.com/p/178a7dc62164
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞