标签：rdd

Spark Streaming 中使用c3p0连接池操作mysql数据库

在Spark Streaming的应用程序中，有时候需要将计算结果保存到数据库中，为了高效这里使用批量插入，结合c3po连接池，说明一下使用方法。数据计算完成后，在foreachRDD中批量插入数据，因为是针对每一个p…

总结一下个人看了一些Spark性能调优文章之后的理解，主要框架来自于meituantech，会在此框架上加入个人关注点，目录如下， 0. Overview 1. 开发调优 - 避免创建重复的RDD - 尽可能复用同一个R…

Spark/Spark Streaming transform 是一个很强的方法，不过使用过程中可能也有一些值得注意的问题。在分析的问题，我们还会顺带讨论下Spark Streaming 生成job的逻辑，从而让大家知道…

1.转化操作#### 对一个数据{1，2，3，3}的RDD进行基本的RDD转化操作（1）map() 将函数应用于RDD中的每个元素，将返回新的RDD rdd.map(x => x+1) 返回{2，3，4，4 } …

Spark提供了三种主要的与数据相关的API： RDD DataFrame DataSet 三者图示下面详细介绍下各自的特点： RDD 主要描述：RDD是Spark提供的最主要的一个抽象概念（Resilient Dis…

首先我们看看官方的定义和用法介绍 RDD Persistence（持久化） Spark 中一个很重要的能力是将数据persisting持久化（或称为caching缓存），在多个操作间都可以访问这些持久化的数据。当持久化一…

相比于传统代码，Spark是比较难调试的，所以对其进行单元测试是非常必要的。 RDD测试 RDD在集群中运行，每次修改bug后，都要上传到集群进行测试，代价非常大。所以优先在本地进行单元测试，可以减少小模块的逻辑错误。…

代码优化部分多个Action计算最好基于同一个RDD进行计算操作, 并且对相同的RDD进行Cache操作，避免重复计算，增加任务的执行时间；并且持久化级别最好使用MEMORY_ONLY_SER来减少内存使用；在使用j…

这里介绍了一些 spark RDD 中比较难理解的算子，方便以后回忆。 mapPartitions transformation转换 def mapPartitions[U](f: (Iterator[T]) =>…

一、学习Spark RDD RDD是Spark中的核心数据模型，一个RDD代表着一个被分区(partition)的只读数据集。 RDD的生成只有两种途径：一种是来自于内存集合或外部存储系统；另一种是通过转换操作来自于…

RDD是什么？ RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布…

sortByKey 官方文档描述： Sort the RDD by key, so that each partition contains a sorted range of the elements in ascen…