RDD(Resilient Distributed Dataset),全称弹性分布式数据集,是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合,他可以包含Python、Java、Sca…
标签:rdd
【Spark Java API】Action(4)—sortBy、takeOrdered、takeSample
sortBy 官方文档描述: Return this RDD sorted by the given key function. 函数原型: def sortBy[S](f: JFunction[T, S], ascen…
Spark RDD持久化级别
RDD持久化用于RDD重用和节省重新计算,方便构建迭代算法,缓存粒度为整个RDD 持久化级别 StorageLevel 说明 MEMORY_ONLY 使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所…
Spark源码分析:Spark存储管理
Spark源码分析:Spark存储管理 我们在编写soark程序,总是和rdd打交道,但是rdd仅仅是一个“形”,我们所操作的数据放在哪里呢?他和rdd又是怎么映射的呢。shuffle数据怎么管理和运行的呢。 1.整体架…
spark 原理
什么是RDD RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则…
Spark 编程基础
RDD编程 RDD创建: 第一种:读取一个外部数据集。比如,从本地文件加载数据集,或者从HDFS文件系统 从文件系统中加载数据创建RDD 从本地加载: scala> val lines = sc.textFile(…
【Spark】RDD操作详解1——Transformation和Actions概况
Spark算子的作用 下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textF…
Spark详解06容错机制Cache 和 Checkpoint
Cache 和 Checkpoint 作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce j…
Spark内存管理详解(下)——内存管理
本文最初由IBM developerWorks中国网站发表,其链接为Apache Spark内存管理详解 在这里,正文内容分为上下两篇来阐述,上一篇见《Spark内存管理详解(上)——内存分配》 Spark内存管理详解(…
Spark RDD数据过滤
过滤RDD中的数据通过查看RDD的官方AIP,可以使用两种方法,filter和collect filter scala> val testRDD = sc.makeRDD(1 to 10) testRDD: org…
Spark宽依赖与窄依赖
Spark中RDD的高效与DAG(有向无环图)有很大的关系,在DAG调度中需要对计算的过程划分Stage,划分的依据就是RDD之间的依赖关系。RDD之间的依赖关系分为两种,宽依赖(wide dependency/shuf…
Spark - RDD/DF/DS性能测试
Spark 在三个弹性数据集,但是我们并不知道哪个性能比较好(有的文章的说Dataset<Dataframe<RDD),好了,这下就有个无聊的人了,那就是我,这里会测试一下它们的性能如何。 测试代码 clas…