标签：sparkstreaming

Spark推测执行解决SparkStreaming任务task卡死问题

背景：测试环境运行一个SparkStreaming任务，yarn-cluster模式，duration为5分钟一个批次，每个批次平均2000w条records，并行度为60 资源配置为： ${SPARK_HOME}/bi…

SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计 – lxw的大数据田地 http://lxw1234.com/archives/2015/11/552.htm Flume+Kafka…

我的原创地址：https://dongkelun.com/2018/06/25/KafkaUV/ 前言本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次，这个看…

我的原创地址：https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/ 前言本文利用SparkStreaming和Kafka实现基于缓存的实时wordcou…

SparkStreaming适合场景 Storm 流式计算（扶梯）优点：数据延迟度很低，Storm的事务机制要比SparkStreaming的事务机制要完善（什么是事务机制？对于一条数据，不多处理也不少处理，对于一条…