标签：rdd

spark基础--rdd的生成

使用parallelize创建RDD 也可以使用makeRDD来创建RDD。通过查看源码可以发现，makeRDD执行的时候，也是在调用parallelize函数，二者无区别。通过 .textFile 可以通过文件读…

RDD特性： 1.RDD是spark提供的核心抽象，全称：Resillient Distributed Dataset,即弹性分布式数据集。 2.RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，氛围多个分区，…

RDD持久化用于RDD重用和节省重新计算，方便构建迭代算法，缓存粒度为整个RDD 持久化级别 StorageLevel 说明 MEMORY_ONLY 使用未序列化的Java对象格式，将数据保存在内存中。如果内存不够存放所…

RDD是什么 RDD（Resilient Distributed Datasets）可扩展的弹性分布式数据集，rdd是spark最基本的数据抽象，是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…

RDD是Spark的基础，是对大数据的抽象，所以先破解Spark，首先从RDD开始。 * RDD 是什么？有什么特点？ * RDD 包含什么？ * RDD 能做什么？ RDD 的注释 org.apache.spark.r…

sortBy 官方文档描述： Return this RDD sorted by the given key function. 函数原型： def sortBy[S](f: JFunction[T, S], ascen…

foreach 官方文档描述： Applies a function f to all elements of this RDD. 函数原型： def foreach(f: VoidFunction[T]) ** for…

Spark Streaming中的数据是源源不断流进来的，有时候我们需要计算一些周期性的统计，就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…

RDD的持久化也就是说假如我们从hdfs读取文件，形成RDD。当我们对RDD进行持久化操作之后，，然后再针对该RDD进行action操作（这里我们假设执行count操作，中间可能经历了一系列transformation…

刚开始看Spark API 或者Scala编程的时候，发现函数式编程看的不太明白。又不想系统的看看Scala的书，就找找网上资料了，顺便做做笔记。 map map操作，按照Spark里面的说就是，将一个RDD中的每一个元…

我们再RDD类中随便找一个action算子 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 可以看到调用了SparkContext的run…

/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…