标签：rdd

Spark中repartition和coalesce的用法

在Spark的Rdd中，Rdd是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，每个任务计算的数据比较小时，计算速度有可能会变慢，因为处理的数据量小。但…

基本概念 What’s DataFrame A DataFrame is equivalent to a relational table in Spark SQL [1]。 DataFrame的前身是Sch…

RDD-Transformation 转换（Transformation）算子就是对RDD进行操作的接口函数，其作用是将一个或多个RDD变换成新的RDD。使用Spark进行数据计算，在利用创建算子生成RDD后，数据处理…

Resilient Distribute DataSet RDD是Spark最核心的理念, 要掌握Spark, 首先要把RDD这个概念搞明白. 下面我将尝试去解释一下RDD的概念. 如果你使用过Scala的集合类库, 那…

RDD 基本概念 Job: 每个 action 都会触发 sparkcontext 提交一个 Job, 比如 count, collect, reduce 这些函数。 Stage: 一个 Job 提交后会 build 出…

cartesian 官方文档描述： Return the Cartesian product of this RDD and another one, that is, the RDD of all pairs of e…

引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消…

为什么要设计RDD 网上资料很多，这里我给罗列出来，许多的迭代算法和交互式数据挖掘工具，这些应用场景的共同点是：在不同的运行阶段或者说是计算阶段，都会重用中间…

弹性分布式数据集RDD表示一个分区数据元素的集合，可以在其上进行并行操作。它是Spark的主要数据抽象概念。它是Spark库中定义的一个抽象类。 1.设计背景许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具…

1. 前言 spark sql中使用DataFrame/DataSet来抽象表示结构化数据（关系数据库中的table），DataSet上支持和RDD类似的操作，和RDD上的操作生成新的RDD一样，DataSet上的操作生…

在Spark Streaming中，job不断的产生，有时候会产生一些空RDD，而基于这些空RDD生成的job大多数情况下是没必要提交到集群执行的。执行没有结果的job，就是浪费计算资源，数据库连接资源，产生空文件等。 …

1.Pair RDD的转化操作以键值对集合{(1,2),(3,4),(3,6)}为例 1.reduceByKey(func) 合并具有相同键的值 rdd.reduceByKey((x,y) => x+y) 结果：…