标签：批次

Spark推测执行解决SparkStreaming任务task卡死问题

背景：测试环境运行一个SparkStreaming任务，yarn-cluster模式，duration为5分钟一个批次，每个批次平均2000w条records，并行度为60 资源配置为： ${SPARK_HOME}/bi…

在面向流处理的分布式计算中，经常会有这种需求，希望需要处理的某个数据集能够不随着流式数据的流逝而消失。以spark streaming为例，就是希望有个数据集能够在当前批次中更新，再下个批次后又可以继续访问。一个最简单…

性能优化要想使你的Spark流处理应用能够获得更好地性能，你需要大量的优化工作。在这一节中，我们提供了许多配置和参数来对你的程序进行改进。首先你需要从两个方面出发来考虑优化工作。通过有效的的使用集群资源来降低每个批次…