这篇文章只是为了阐述Spark Streaming 意外Crash掉后,如何保证Exactly Once Semantics。本来这个是可以直接给出答案的,但是我还是啰嗦的讲了一些东西。 前言 其实这次写Spark St…
标签:streaming
[翻译]Spark Struct Streaming设计文档
介绍 通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。 语义 我们提出来一个简单的模型…
1 Spark Streaming 透彻理解之一
本文内容基于Spark最新版1.6.1 Spark 最初只有Spark Core,通过逐步的发展,现在已扩展出Spark SQL、Spark Streaming、Spark MLlib(machine learning)…
spark stream冷启动处理kafka中积压的数据
因为首次启动JOB的时候,由于冷启动会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量 spark.streaming.backpressure.enabled=true spark.streaming.ba…
Spark Streaming提高写数据库的效率
1. 前言 这是一篇挂羊头卖狗肉的文章,事实上,本文要描述的内容,和Spark Streaming没有什么关系。 在上一篇文章http://www.jianshu.com/p/a73c0c95d2fe 我们写了如何通过S…
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
Spark入门实战系列–7.Spark Streaming(上)–实时流计算Spark Streaming原理介绍 – shishanyuan – 博客园 http://w…
Spark Streaming 数据产生与导入相关的内存分析
前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。 一个大致的数据接受流程 一些存储结构的介绍 哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark …
Spark Streaming 数据接收优化
看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。 这篇内容是个人的一些经验,大家用的时候还是建议好好…
Spark Streaming管理Kafka偏移量
前言 为了让Spark Streaming消费kafka的数据不丢数据,可以创建Kafka Direct DStream,由Spark Streaming自己管理offset,并不是存到zookeeper。启用Spa…
Spark Streaming使用Kafka保证数据零丢失
源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正。原文链接https://github.com/jacksu/utils4s/blob/master/spark-knowledge/md/spar…
Spark Streaming学习
以下内容主要基于Spark2.1.0版本的Spark Streaming内容学习得到。 还是先把Maven的依赖加入进去: https://mvnrepository.com/artifact/org.apache.sp…
Spark Streaming 不同Batch任务可以并行计算么?
关于Spark Streaming中的任务有如下几个概念: Batch Job Stage Task 其实Stage,Task都是Spark Core里就有的概念,Job 在Streaming和Spark Core里的概…