DStream 转换操作包括:无状态转换、有状态转换。 无状态转换:每个批次的处理不依赖于之前批次的数据。 有状态转换:当前批次的处理需要使用 之前批次的数据或者中间结果。有状态转换包括基于 滑动窗口的转换 和 追踪状态…
标签:func
spark streaming 实时日志清洗和统计
1、数据处理加工模型 (1)输入:文件,数据库,消息队列 (2)处理:函数,sql,mapreduce,bolt,transform/action (3)输出:文件,数据库 2、spark简介 spark与hadoop开…
Spark RDD键值对操作
1.Pair RDD的转化操作 以键值对集合{(1,2),(3,4),(3,6)}为例 1.reduceByKey(func) 合并具有相同键的值 rdd.reduceByKey((x,y) => x+y) 结果:…