* Storm框架基础(一) Storm简述 如果你了解过SparkStreaming,那么Storm就可以类比着入门,在此我们可以先做一个简单的比较: 在SparkStreaming中: 我们曾尝试过每秒钟…
标签:sparkstreaming
SparkStreaming入门教程(一)概述、特点、架构原理以及与storm的对比
本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! 什么是SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理。 什么是流式数据的处理: 即数据源源不断的…
SparkStreaming+Kafka 实现基于缓存的实时wordcount程序
我的原创地址:https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/ 前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcou…
SparkStreaming入门教程(二)基础输入源:TCP+HDFS 实时读取文件数据并处理
本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! 初始化SparkStreaming 前面我们架构原理上讲到,SparkStreaming依赖于StreamingContext和SparkContext 因此首…
SparkStreaming入门教程(三)高级输入源:Flume、Kafka整合SparkStreamigaming
SparkStreaming+Kafka SparkStreaming整合Kafka有两种方式,一种是基于接收器的方法,另一种是直接方法(无接收器)。 Receiver方式:由Spark executors中的Recei…
SparkStreaming+Kafka 实现统计基于缓存的实时uv
我的原创地址:https://dongkelun.com/2018/06/25/KafkaUV/ 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看…
SparkStreaming之读取Kafka数据
本文主要记录使用SparkStreaming从Kafka里读取数据,并计算WordCount 主要内容: 1.本地模式运行SparkStreaming 2.yarn-client模式运行 相关文章: 1.Spark之PI…
Spark推测执行解决SparkStreaming任务task卡死问题
背景:测试环境运行一个SparkStreaming任务,yarn-cluster模式,duration为5分钟一个批次,每个批次平均2000w条records,并行度为60 资源配置为: ${SPARK_HOME}/bi…
Spark之PI本地
本文讲述的是如何在IDEA里编写一个计算PI的Spark程序。 主要内容: 1.安装Scala 2.编写ScalaPI 相关文章: 1.Spark之PI本地 2.Spark之WordCount集群 3.SparkStre…
Spark Streaming使用场景及优化总结
SparkStreaming适合场景 Storm 流式计算(扶梯) 优点: 数据延迟度很低,Storm的事务机制要比SparkStreaming的事务机制要完善(什么是事务机制?对于一条数据,不多处理也不少处理,对于一条…
【Spark】SparkStreaming 新增Metrics 支持Kafka数据消费堆积监控
在SparkStreaming任务运行的过程中,由于数据流量或者网络的抖动,任务的batch很可能出现delay,所以就出现了一个需求:实时监控任务对kafka消息的消费,及时了解堆积情况。 这个需求应该有很多种解决方案…
[SQL]spark sql 直接查询hive或impala中的数据
SparkSQL结合SparkStreaming,使用SQL完成实时计算中的数据统计 – lxw的大数据田地 http://lxw1234.com/archives/2015/11/552.htm Flume+Kafka…