大数据学习交流微信群 前两天分享的Flink 学习笔记中有介绍滚动窗口和滑动窗口。Spark Streaming也是支持的。 在 Java Spark 简单示例(五)Spark Streaming 演示了Spark St…
标签:streaming
spark streaming框架简介
1. spark steaming概述 在《spark 基础(上篇)》中,spark streaming是spark体系中的一个流式处理框架。因此,Spark streaming相对于其他流式处理框架就更有优势,用途更加…
Spark Streaming Direct Approach (No Receivers) 分析
前言 这个算是Spark Streaming 接收数据相关的第三篇文章了。 前面两篇是: Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 Spark Strea…
[spark streaming] DStream 和 DStreamGraph 解析
看 spark streaming 源码解析之前最好先了解spark core的内容。 前言 Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。 在Spark Stre…
Spark Streaming使用Receiver机制消费Kafka时,任务并发度如何设置?
(本文基于Spark 2.1.1、Kafka 0.10.2、Scala 2.11.8、Zookeeper 3.4.9、Kafka-manager-1.3.0.7) 利用Receiver机制接收数据,需要加载spark-s…
Spark Streaming 编程指南(2.x)
Spark Streaming 编程指南 1.概述 Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理. 数据可以通过多种数据源获取, 例如 K…
深入理解Spark Streaming的执行模型(全局性word count)
本文译自《Diving into Apache Spark Streaming’s Execution Model》,作者: Tathagata Das, Matei Zaharia , Patrick Wendell …
Spark Streaming + Spark SQL 实现配置化ETL流程
Spark Streaming 非常适合ETL。但是其开发模块化程度不高,所以这里提供了一套方案,该方案提供了新的API用于开发Spark Streaming程序,同时也实现了模块化,配置化,并且支持SQL做数据处理。 …
spark向kafka写入数据(转)
前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数…
13.spark streaming之快速入门
简介 Spark Streaming是Spark核心API的扩展,可以实现可伸缩、高吞吐量、具备容错机制的实时流时数据的处理。支持多种数据源,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis …
Spark Streaming Executor DynamicAllocation 机制分析
—————☼—————☼—————☼—————☼—————☼————— Spark Streaming概述 Spark Streaming 初始化过程 Spark Streaming Receiver启动过程分析 Spa…
spark 基础知识整理(四)- spark streaming专题
一、概述 Spark Streaming是基于Core Spark API的可扩展,高吞吐量,并具有容错能力的用于处理实时数据流的一个组件。Spark Streaming可以接收各种数据源传递来的数据,比如Kafka, …