sparkstreaming的流计算有几种
1,时间段计算,每个时间段统计一次,所有的数据都是这个时间段内的数据
这里会用到receiver,在executor中启动一个线程,接收数据,把数据本份到本地.
如果调试程序需要把线程设置为local[2],因为需要一个receiver线程
2,时间段累计计算,所有的时间段的数据累积
3,时间窗口滑动计算,数据来自窗口时间内的数据,但是一部分数据之前已经统计过,用来实时分析最近一段时间的内容.
针对kafka也有两种方式,一个是direct方式,一个是receiver方式,这个receiver方式与时间段计算方式差不多.