pyspark.streaming module Module contents class pyspark.streaming.StreamingContext(sparkContext, batchDuration=…
标签:streaming
Spark-Streaming 文档之基本概念
概述 我们先来看看Spark官方文档对于Spark Streaming的定义:Spark Streaming是对Spark核心API的扩展,并且是一个具有可伸缩,高吞吐,容错特性的实时数据流处理框架。它支持多种数据源作为…
9.Spark学习(Python版本):SparkStreaming基本操作
Spark Streaming程序基本步骤 编写Spark Streaming程序的基本步骤是: 1.通过创建输入DStream来定义输入源 2.通过对DStream应用转换操作和输出操作来定义流计算。 3.用strea…
Spark Streaming + Kakfa 编程指北
本文简述如何结合 Spark Streaming 和 Kakfa 来做实时计算。截止目前(2016-03-27)有两种方式: 使用 kafka high-level API 和 Receivers,不需要自己管理 off…
利用Spark Streaming实现分布式采集系统
之前我在微信朋友圈发了一段话,说明Spark Streaming 不仅仅是流式计算,也是一类通用的模式,可以让你只关注业务逻辑而无需关注分布式相关的问题而迅速解决业务问题 前言 前两天我刚在自己的一篇文章中鼓吹数据天生就…
Spark Streaming 误用.transform(func)函数导致的问题解析
Spark/Spark Streaming transform 是一个很强的方法,不过使用过程中可能也有一些值得注意的问题。在分析的问题,我们还会顺带讨论下Spark Streaming 生成job的逻辑,从而让大家知道…
[flow]Kafka+Spark Streaming+Redis实时计算整合
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统 https://www.ibm.com/developerworks/cn/opensource/os-cn-…
Spark源码解析:DStream
0x00 前言 本篇是Spark源码解析的第二篇,主要通过源码分析Spark Streaming设计中最重要的一个概念——DStream。 本篇主要来分析Spark Streaming中的Dstream,重要性不必多讲,…
Spark Streaming 的玫瑰与刺
前言 说人话:其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲,坑则是从实际场景中遇到的一些小细节描述。 玫瑰篇 玫瑰篇主要是说Spark Streaming的优势点。 玫瑰之代码复用 这主…
Spark 动态资源分配(Dynamic Resource Allocation) 解析
Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。 前言 最近在使用Spark Streaming程序时,发现如下几个问题: 高峰和低峰S…
spark streaming stateful DStream 持久保存RDD/有状态的内存
在面向流处理的分布式计算中,经常会有这种需求,希望需要处理的某个数据集能够不随着流式数据的流逝而消失。 以spark streaming为例,就是希望有个数据集能够在当前批次中更新,再下个批次后又可以继续访问。一个最简单…
Spark Streaming之WordCount
1. 概要 Spark Streaming是Spark的流处理框架,具有可扩展性、高吞吐率、失败恢复机制。Spark Streaming可以接入许多source,包括Kafka、Flume、HDFS/S3、Kinesis…