作业调度 Spark默认采取FIFO策略运行多个Jobs,它提供一个队列来保存已经提交的Jobs,如果队头的Job不需要占用所有的集群资源,那么后续的 Job可以立即运行,但是如果队头的Job需要占用所有的集群资源,且运…
分类:Spark
Spark-Streaming 文档之性能调优
性能优化 要想使你的Spark流处理应用能够获得更好地性能,你需要大量的优化工作。在这一节中,我们提供了许多配置和参数来对你的程序进行改进。首先你需要从两个方面出发来考虑优化工作。 通过有效的的使用集群资源来降低每个批次…
Spark Streaming 的玫瑰与刺
前言 说人话:其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲,坑则是从实际场景中遇到的一些小细节描述。 玫瑰篇 玫瑰篇主要是说Spark Streaming的优势点。 玫瑰之代码复用 这主…
spark sql 2.3 源码解读 - antlr4 && SparkSqlParser (2.1)
接着上一篇文章,本章将介绍 第1步:sql 语句经过 SqlParser 解析成 Unresolved Logical Plan 当我们执行: val sqlDF = spark.sql("SELECT name…
为Spark Deep Learning 集成TFoS
前言 昨晚睡了12小时,早上起来神清气爽,索性把之前提的一个Issue:Is there any plan to port TensorframeOnSpark(From yahoo) 给尝试着集成进来。 前两天已经添加…
基于Kafka+SparkStreaming+HBase实时点击流案例
前言 最近在专注Spark开发,记录下自己的工作和学习路程,希望能跟大家互相交流成长 本文章更倾向于实战案例,涉及框架原理及基本应用还请读者自行阅读相关文章,相关在本文章最后参考资料中 关于Zookeeper/Kafka…
spark master和spark worker挂掉application恢复问题
首先分5中情况: 1,spark master进程挂掉了 2,spark master在执行中挂掉了 3,spark worker提交任务前全部挂掉了 4,spark worker在执行application过程中挂掉了…
Spark Streaming中简单粗暴执行TensorFlow
Spark Streaming =>很火,在流处理中得到了广泛的应用。TensorFlow=>很火,由Google大神开源,目前已经在深度学习领域展现了超高的流行潜质。那么如何在Spark Streaming…
spark mllib支持哪些机器学习算法?
Spark 2.1 Mllib 考虑到spark选型做mllib的人,最关心问题,就是spark mllib能够支持多少机器学习的算法呢? 问题很简单,就下面这么多,你看着用吧。 数据集: • Local vector(…
Spark RDD键值对操作
1.Pair RDD的转化操作 以键值对集合{(1,2),(3,4),(3,6)}为例 1.reduceByKey(func) 合并具有相同键的值 rdd.reduceByKey((x,y) => x+y) 结果:…
【Spark Java API】Transformation(7)—cogroup、join
cogroup 官方文档描述: For each key k in `this` or `other`, return a resulting RDD that contains a tuple with the lis…
`spark.yarn.jar`和`spark.yarn.archive`的使用
启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar,非常耗时;使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理…