RDD特性: 1.RDD是spark提供的核心抽象,全称:Resillient Distributed Dataset,即弹性分布式数据集。 2.RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,氛围多个分区,…
标签:rdd
spark基础--rdd的生成
使用parallelize创建RDD 也 可以使用makeRDD来创建RDD。 通过查看源码可以发现,makeRDD执行的时候,也是在调用parallelize函数,二者无区别。 通过 .textFile 可以通过文件读…
spark从入门到放弃六: RDD 持久化原理
文章地址:http://www.haha174.top/article/details/252484 spark 中一个非常重要的功能特性就是可以将RDD 持久化到内存中。当对RDD进行持久化操作时,每个节点都会将自己操…
Spark计算模型与I/O机制
Part 1 1. Spark计算模型 1.1 Spark程序模型 首先通过一个简单的实例了解Spark的程序模型。 1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量file。 val…
Spark使用总结与分享
背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学…
深入理解Spark 2.1 Core (一):RDD的原理与源码分析
本文链接:http://blog.csdn.net/u011239443/article/details/53894611 该论文来自Berkeley实验室,英文标题为:Resilient Distributed Dat…
SPARK[RDD之dependencies]
Resilient Distributed Datasets [rɪ’zɪlɪənt] 准确翻译为 容错的 并行的 数据结构 而不是弹性分布式数据集合 RDD提供了丰富的集合操作函数,来有别于hadoop中单…
Spark大数据分析框架的核心是什么?
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计…
Java Spark 简单示例(九) CheckPoint 检查点使用
大数据学习交流微信群 Spark 采用Lineage(书里叫血统)和CheckPoint(检查点)两种方式来解决分布式数据集中的容错问题。Lineage本质上类似于数据库的重做日志(redo log),只不过这个日志粒度…
总结:Spark性能优化上的一些总结
Spark性能调优 整理来自于: Spark性能优化指南——基础篇 会增加: 一些其他博客的内容 自己的理解和pyspark代码的补充实践 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和…
Spark 核心 RDD 剖析(下)
上文Spark 核心 RDD 剖析(上)介绍了 RDD 两个重要要素:partition 和 partitioner。这篇文章将介绍剩余的部分,即 compute func、dependency、preferedLoca…
RDD 持久化的工作原理
Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD在内存中进行计算,在该数据上的其他 action 操作将直…