标签：rdd

Spark Streaming 1.6 流式状态管理分析

Spark 1.6发布后，官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。关于状态管理在流式计算中，数据是持续不断来的，有时候我们要对一些数据做跨周期(Dur…

前面讲到了RDD的分区、RDD的创建，这节将讲解RDD的转换，RDD的转换就是从父RDD生成一个新的RDD，新的RDD分区可能和父RDD一致也可能不再一致。常用的转换函数: map map是对每个元素进行转换，生成新的…

转载请注明出处：http://www.jianshu.com/p/15739e95a46e @贰拾贰画生最近在学习spark，理解这两个函数时候费了一些劲，现在记录一下。 1. rdd.fold(value)(func…

RDD是什么 RDD（Resilient Distributed Datasets）可扩展的弹性分布式数据集，rdd是spark最基本的数据抽象，是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…

我的原创地址：https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可…

mapPartitions 官方文档描述： Return a new RDD by applying a function to each partition of this RDD. ** mapPartitions函…

本文基于spark2.11 1. 前言 1.1 基本概念 RDD 关于RDD已经有很多文章了，可以参考一下理解Spark的核心RDD 依赖依赖分为窄依赖和宽依赖，下图描述了两种依赖(图片出自spark窄依赖和宽依赖) …

转载请注明 : [过把火] https://www.jianshu.com/p/29d17aa23116 序一直都没有很系统地阅读过RDD的原始论文，最近翻出来研读一遍，并作此记录。《Resilient Distri…

Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discreti…

/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…

Spark Streaming中的数据是源源不断流进来的，有时候我们需要计算一些周期性的统计，就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…

RDD的5大特点 1）有一个分片列表，就是能被切分，和Hadoop一样，能够切分的数据才能并行计算。一组分片（partition），即数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算…