==[机制]RDD~理解Spark的核心RDD

2019年6月8日 195次阅读来源: 葡萄喃喃呓语

理解Spark的核心RDD
http://www.infoq.com/cn/articles/spark-core-rdd/

//摘要
【RDD将操作分为两类：transformation与action。无论执行了多少次transformation操作，RDD都不会真正执行运算，只有当action操作被执行时，运算才会触发】。而在RDD的内部实现机制中，【底层接口则是基于迭代器的，从而使得数据访问变得更高效，也避免了大量中间结果对内存的消耗】。

总结
RDD是Spark的核心，也是整个Spark的架构基础。它的特性可以总结如下：
它是不变的数据结构存储
它是支持跨集群的分布式数据结构
可以根据数据记录的key对结构进行分区
提供了粗粒度的操作，且这些操作都支持分区
它将数据存储在内存中，从而提供了低延迟性

《==[机制]RDD~理解Spark的核心RDD》 Paste_Image.png

与许多专有的大数据处理平台不同，Spark建立在【统一抽象的RDD之上，使得它可以以基本一致的方式应对不同的大数据处理场景，包括MapReduce，Streaming，SQL，Machine Learning以及Graph等】。这即Matei Zaharia所谓的“设计一个【通用的编程抽象（Unified Programming Abstraction）】。这正是Spark这朵小火花让人着迷的地方。
要理解Spark，就需得理解RDD。
RDD是什么？
RDD，全称为Resilient Distributed Datasets，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制【数据的分区】。同时，RDD还提供了一组丰富的操作来【操作这些数据】。在这些操作中，诸如【map、flatMap、filter等转换操作】实现了monad模式，很好地契合了Scala的【集合操作】。除此之外，RDD还提供了诸如join、groupBy、reduceByKey等更为方便的操作（注意，reduceByKey是action，而非transformation），以支持常见的数据运算。
通常来讲，针对数据处理有几种常见模型，包括：Iterative Algorithms，Relational Queries，MapReduce，Stream Processing。例如Hadoop MapReduce采用了MapReduces模型，Storm则采用了Stream Processing模型。【RDD混合了这四种模型，使得Spark可以应用于各种大数据处理场景】。
【RDD作为数据结构，本质上是一个只读的分区记录集合】。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用，则称之为narrow dependency；若多个Child RDD分区都可以依赖，则称之为wide dependency。不同的操作依据其特性，可能会产生不同的依赖。例如map操作会产生narrow dependency，而join操作则产生wide dependency。
Spark之所以将依赖分为narrow与wide，基于两点原因。
首先，【narrow dependencies可以支持在同一个cluster node上以管道形式执行多条命令，例如在执行了map后，紧接着执行filter】。相反，【wide dependencies需要所有的父分区都是可用的，可能还需要调用类似MapReduce之类的操作进行跨节点传递】。
其次，则是从失败恢复的角度考虑。narrow dependencies的失败恢复更有效，因为它只需要重新计算丢失的parent partition即可，而且可以并行地在不同节点进行重计算。而wide dependencies牵涉到RDD各级的多个Parent Partitions。下图说明了narrow dependencies与wide dependencies之间的区别：

【RDD将操作分为两类：transformation与action。无论执行了多少次transformation操作，RDD都不会真正执行运算，只有当action操作被执行时，运算才会触发】。而在RDD的内部实现机制中，【底层接口则是基于迭代器的，从而使得数据访问变得更高效，也避免了大量中间结果对内存的消耗】。

Spark快速入门指南 – 梦里花落的博客 – 博客频道 – CSDN.NET
http://blog.csdn.net/qq_19244267/article/details/46456873

【RDDs提供actions操作，通过它可以返回值；同时还提供 transformations操作，通过它可以返回一个新的RDD的引用】。如下：
1 scala> textFile.count() // Number of items in this RDD
2 res1: Long = 108

我们再试试transformations操作，下面的例子中我们通过使用filter transformation来一个新的RDD：
1 scala> val linesWithSpark = textFile.filter(line => line.contains(“Spark”))
2 linesWithSpark: org.apache.spark.rdd.RDD[String] = FilteredRDD[4] at
3 filter at <console>:14

我们将transformations操作和actions操作连起来操作：
1 scala> textFile.filter(line => line.contains(“Spark”)).count()
2 res3: Long = 15

更多关于RDD上面的操作
　　RDD的transformations操作和actions操作可以用于更复杂的计算。下面的例子是找出README.md文件中单词数最多的行有多少个单词
1 scala> var size = textFile.map(line=>line.split(” “).size)
2 scala> size.reduce((a, b)=>if (a > b) a else b)
3 res4: Long = 15
map函数负责将line按照空格分割，并得到这行单词的数量，而reduce函数将获取文件中单词数最多的行有多少个单词。map和reduce函数的参数是Scala的函数式编程风格。我们可以直接用Java里面的Math.max()函数，这样会使得这段代码更好理解

    原文作者：葡萄喃喃呓语
    原文地址: https://www.jianshu.com/p/8789b83fa3d6
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。