Spark Streaming-执行过程

2019年6月8日 217次阅读来源: raincoffee

Spark Streaming

Spark Streaming 执行过程

Spark 内部实现遵循以下步骤：

主要部件的初始化过程
网络侧接收到的数据如何存储到内存
如何根据存储下来的数据生成相应的spark job

《Spark Streaming-执行过程》

下面我们以wordcount为例说明。

1. streamingContext初始化过程

val ssc= new StreamingContext("local[2]","Networkwordcount",Seconds(1))

Streamingcontext的参数：

sparkcontext，任务最重通过sparkcontext借口提交到spark cluster运行
checkpoint 检查点
duration 根据多久时长常见一个batch

《Spark Streaming-执行过程》

利用初始化的ssc生成dstream。

val lines=ssc.sockettextStream("localhost",9999)

《Spark Streaming-执行过程》

sockettextstream返回值是dstream

《Spark Streaming-执行过程》

socketinputdstream的实现中，最主要就是定义getreceiver函数，在getreceiver函数中制作了一件事情，即产生一个新的socketreceiver。

《Spark Streaming-执行过程》

创建完socketreceiver之后，接下来的工作就是对dstream进行一系列的操作转换。对Streaming的实际应用开发也集中在这样的一个阶段。

val words=lines.flatmap(_.split(" "))
import org.apache.spark.streaming.streamingContext._
val pairs=words.map(word=>(word,1))
val wordcounts=pairs.reduceByKey(_+_)
wordcounts.print()

在上述的转换过程中，print属于输出操作。

共有如下输出操作

print
foreachrdd
saveasobjectfiles
saveastextfiles
saveashadoopfiles

上述设计的输出操作其实最后都会调用到foreachdstaream，foreachdstream不同于dstream的地方在于冲在了generatejob方法。

最后就是提交。

ssc.start()
ssc.awaitTermination()

2. 数据接收

ssc.start触及的运行逻辑。调用jobscheduler.start，由job scheduler一次启动一下三大功能模块。

监控
数据接收
定期生成spark job的jobgenerator

《Spark Streaming-执行过程》

3. 数据处理

如何将输出和输入绑定一起，依赖于dstreamgraph，dstreamgraph记录输入的stream和输出的stream。

《Spark Streaming-执行过程》

窗口操作

滑动窗口：

《Spark Streaming-执行过程》

在任何基于窗口的操作都需要制定两个参数，一个是窗口总的长度，另一个是滑动窗口的间隔。需要注意的是这两个参数的值必须是批量处理时间间隔的倍数。

比如想知道过去30s某个单词出现的次数，每10s更新一次结果，可以使用如下代码：

val windowedwordcounts=pairs.reduceBykeyandWindow(a:int,b:int)=>(a+b),seconds(30),seconds(10))

容错性分析

《Spark Streaming-执行过程》

    原文作者：raincoffee
    原文地址: https://www.jianshu.com/p/4d7c7be26cb3
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。