SPARK[RDD之dependencies]

2019年6月8日 261次阅读来源: 北风第一支

Resilient Distributed Datasets

[rɪ’zɪlɪənt] 准确翻译为容错的并行的数据结构而不是弹性分布式数据集合
RDD提供了丰富的集合操作函数，来有别于hadoop中单调的mapreduce函数。

RDD作为数据结构，本质上是一个只读的分区记录集合。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用，则称之为narrow dependency；若多个Child RDD分区都可以依赖，则称之为wide dependency。不同的操作依据其特性，可能会产生不同的依赖。例如map操作会产生narrow dependency，而join操作则产生wide dependency。

RDD是粗粒度数据结构，每一次操作都会生成一个新的RDD,在RDD之间就会形成一个链表关系的前后依赖关系。

《SPARK[RDD之dependencies]》 Paste_Image.png
Paste_Image.png

    原文作者：北风第一支
    原文地址: https://www.jianshu.com/p/178a7dc62164
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。