Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。 关于状态管理 在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Dur…
标签:rdd
SPARK[RDD之转换函数]
前面讲到了RDD的分区、RDD的创建,这节将讲解RDD的转换,RDD的转换就是从父RDD生成一个新的RDD,新的RDD分区可能和父RDD一致也可能不再一致。 常用的转换函数: map map是对每个元素进行转换,生成新的…
Spark的fold()和aggregate()函数
转载请注明出处:http://www.jianshu.com/p/15739e95a46e @贰拾贰画生 最近在学习spark,理解这两个函数时候费了一些劲,现在记录一下。 1. rdd.fold(value)(func…
Spark RDD的基本特征以及源码解析
RDD是什么 RDD(Resilient Distributed Datasets)可扩展的弹性分布式数据集,rdd是spark最基本的数据抽象,是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…
Spark 持久化(cache和persist的区别)
我的原创地址:https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可…
【Spark Java API】Transformation(1)—mapPartitions、mapPartitionsWithIndex
mapPartitions 官方文档描述: Return a new RDD by applying a function to each partition of this RDD. ** mapPartitions函…
Spark job提交过程
本文基于spark2.11 1. 前言 1.1 基本概念 RDD 关于RDD已经有很多文章了,可以参考一下理解Spark的核心RDD 依赖 依赖分为窄依赖和宽依赖,下图描述了两种依赖(图片出自spark窄依赖和宽依赖) …
Spark-RDD原始论文阅读及摘抄
转载请注明 : [过把火] https://www.jianshu.com/p/29d17aa23116 序 一直都没有很系统地阅读过RDD的原始论文,最近翻出来研读一遍,并作此记录。 《Resilient Distri…
spark streaming
Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discreti…
spark flatMap 使用
/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…
14 Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
Spark Streaming中的数据是源源不断流进来的,有时候我们需要计算一些周期性的统计,就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…
spark的RDD五大特点
RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算…