使用parallelize创建RDD 也 可以使用makeRDD来创建RDD。 通过查看源码可以发现,makeRDD执行的时候,也是在调用parallelize函数,二者无区别。 通过 .textFile 可以通过文件读…
标签:rdd
spark基础-rdd特性
RDD特性: 1.RDD是spark提供的核心抽象,全称:Resillient Distributed Dataset,即弹性分布式数据集。 2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,氛围多个分区,…
Spark RDD持久化级别
RDD持久化用于RDD重用和节省重新计算,方便构建迭代算法,缓存粒度为整个RDD 持久化级别 StorageLevel 说明 MEMORY_ONLY 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所…
Spark RDD的基本特征以及源码解析
RDD是什么 RDD(Resilient Distributed Datasets)可扩展的弹性分布式数据集,rdd是spark最基本的数据抽象,是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…
Spark源码分析(1) RDD是什么
RDD是Spark的基础,是对大数据的抽象,所以先破解Spark,首先从RDD开始。 * RDD 是什么?有什么特点? * RDD 包含什么? * RDD 能做什么? RDD 的注释 org.apache.spark.r…
【Spark Java API】Action(4)—sortBy、takeOrdered、takeSample
sortBy 官方文档描述: Return this RDD sorted by the given key function. 函数原型: def sortBy[S](f: JFunction[T, S], ascen…
【Spark Java API】Action(3)—foreach、foreachPartition、lookup
foreach 官方文档描述: Applies a function f to all elements of this RDD. 函数原型: def foreach(f: VoidFunction[T]) ** for…
14 Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
Spark Streaming中的数据是源源不断流进来的,有时候我们需要计算一些周期性的统计,就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…
Spark1.6.3 cache()和persist()
RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后, ,然后再针对该RDD进行action操作(这里我们假设执行count操作,中间可能经历了一系列transformation…
Spark-shell&Scala(三)map与flatMap
刚开始看Spark API 或者Scala编程的时候,发现函数式编程看的不太明白。又不想系统的看看Scala的书,就找找网上资料了,顺便做做笔记。 map map操作,按照Spark里面的说就是,将一个RDD中的每一个元…
spark core 2.2.1 触发Action操作
我们再RDD类中随便找一个action算子 def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 可以看到调用了SparkContext的run…
spark flatMap 使用
/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…