分类：Spark

Spark-on-Yarn资源调度和作业调度

作业调度 Spark默认采取FIFO策略运行多个Jobs，它提供一个队列来保存已经提交的Jobs，如果队头的Job不需要占用所有的集群资源，那么后续的 Job可以立即运行，但是如果队头的Job需要占用所有的集群资源，且运…

性能优化要想使你的Spark流处理应用能够获得更好地性能，你需要大量的优化工作。在这一节中，我们提供了许多配置和参数来对你的程序进行改进。首先你需要从两个方面出发来考虑优化工作。通过有效的的使用集群资源来降低每个批次…

前言说人话：其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲，坑则是从实际场景中遇到的一些小细节描述。玫瑰篇玫瑰篇主要是说Spark Streaming的优势点。玫瑰之代码复用这主…

接着上一篇文章，本章将介绍第1步：sql 语句经过 SqlParser 解析成 Unresolved Logical Plan 当我们执行： val sqlDF = spark.sql("SELECT name…

前言昨晚睡了12小时，早上起来神清气爽，索性把之前提的一个Issue:Is there any plan to port TensorframeOnSpark(From yahoo) 给尝试着集成进来。前两天已经添加…

前言最近在专注Spark开发，记录下自己的工作和学习路程，希望能跟大家互相交流成长本文章更倾向于实战案例，涉及框架原理及基本应用还请读者自行阅读相关文章，相关在本文章最后参考资料中关于Zookeeper/Kafka…

首先分5中情况： 1，spark master进程挂掉了 2，spark master在执行中挂掉了 3，spark worker提交任务前全部挂掉了 4，spark worker在执行application过程中挂掉了…

Spark Streaming =>很火，在流处理中得到了广泛的应用。TensorFlow=>很火，由Google大神开源，目前已经在深度学习领域展现了超高的流行潜质。那么如何在Spark Streaming…

Spark 2.1 Mllib 考虑到spark选型做mllib的人，最关心问题，就是spark mllib能够支持多少机器学习的算法呢？问题很简单，就下面这么多，你看着用吧。数据集： • Local vector（…

1.Pair RDD的转化操作以键值对集合{(1,2),(3,4),(3,6)}为例 1.reduceByKey(func) 合并具有相同键的值 rdd.reduceByKey((x,y) => x+y) 结果：…

cogroup 官方文档描述： For each key k in `this` or `other`, return a resulting RDD that contains a tuple with the lis…

启动Spark任务时，在没有配置spark.yarn.archive或者spark.yarn.jars时，会看到不停地上传jar，非常耗时；使用spark.yarn.archive可以大大地减少任务的启动时间，整个处理…