标签：rdd

PySpark笔记(二)：RDD

RDD（Resilient Distributed Dataset），全称弹性分布式数据集，是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合，他可以包含Python、Java、Sca…

sortBy 官方文档描述： Return this RDD sorted by the given key function. 函数原型： def sortBy[S](f: JFunction[T, S], ascen…

RDD持久化用于RDD重用和节省重新计算，方便构建迭代算法，缓存粒度为整个RDD 持久化级别 StorageLevel 说明 MEMORY_ONLY 使用未序列化的Java对象格式，将数据保存在内存中。如果内存不够存放所…

Spark源码分析：Spark存储管理我们在编写soark程序，总是和rdd打交道，但是rdd仅仅是一个“形”，我们所操作的数据放在哪里呢？他和rdd又是怎么映射的呢。shuffle数据怎么管理和运行的呢。 1.整体架…

什么是RDD RDD作为数据结构，本质上是一个只读的分区记录集合。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用，则…

RDD编程 RDD创建：第一种：读取一个外部数据集。比如，从本地文件加载数据集，或者从HDFS文件系统从文件系统中加载数据创建RDD 从本地加载： scala> val lines = sc.textFile(…

Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textF…

Cache 和 Checkpoint 作为区别于 Hadoop 的一个重要 feature，cache 机制保证了需要访问重复数据的应用（如迭代型算法和交互式应用）可以运行的更快。与 Hadoop MapReduce j…

本文最初由IBM developerWorks中国网站发表，其链接为Apache Spark内存管理详解在这里，正文内容分为上下两篇来阐述，上一篇见《Spark内存管理详解（上）——内存分配》 Spark内存管理详解（…

过滤RDD中的数据通过查看RDD的官方AIP，可以使用两种方法，filter和collect filter scala> val testRDD = sc.makeRDD(1 to 10) testRDD: org…

Spark中RDD的高效与DAG（有向无环图）有很大的关系，在DAG调度中需要对计算的过程划分Stage，划分的依据就是RDD之间的依赖关系。RDD之间的依赖关系分为两种，宽依赖(wide dependency/shuf…

Spark 在三个弹性数据集，但是我们并不知道哪个性能比较好(有的文章的说Dataset<Dataframe<RDD)，好了，这下就有个无聊的人了，那就是我，这里会测试一下它们的性能如何。测试代码 clas…