流式计算框架编程接口的标准化,傻瓜化,SQL化,自打谷歌发表Dataflow编程模型的Paper起,就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题,俨然成为大家竞争的热点方向。在过去一年多的时间里,Beam/F…
分类:Spark
spark程序jar与spark lib jar冲突,加载顺序
用户编写的spark程序打包成jar后提交到yarn执行时,经常会遇到jar包中明显存在某个类,但任务提交到yarn运行时却找不到类或方法(java.lang.NoSuchMethodError)的问题。本文总结下产生此…
【Spark】Spark日志过大导致磁盘溢出问题解决方案
一 问题背景 平台近期出现多次spark任务日志文件将磁盘打满,导致平台异常报警和任务失败的情况,这些任务包括Spark-Streaming任务和普通Spark任务。产生该问题的原因主要是: Spark-Streamin…
spark 学习笔记
Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…
Spark on Yarn之Executor内存管理
本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor 的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的空间(H…
eclipse构建maven+scala+spark工程
eclipse插件安装 eclipse版本:Luna Release(4.4.0) 这里需要安装有关maven和scala的插件。 m2e插件 m2e插件用于提供maven功能。直接在eclipse的Marketplac…
Spark RDD的处理过程
闲来无事,研究一下Spark Rdd的处理过程。 以一个简单的例子看看: val textRDD = sc.textFile("/home/ubuntu/people.txt") val filterRDD = text…
[翻译] Storm和Spark Streaming的横向比较
本文翻译自 http://xinhstechblog.blogspot.com/2014/06/storm-vs-spark-streaming-side-by-side.html 另,首先在 http://www.cn…
Spark sc.textFile(...).map(...).count() 执行完整流程
本文介绍下Spark 到底是如何运行sc.TextFile(…).map(….).count() 这种代码的,从driver端到executor端。 引子 今天正好有人在群里问到相关的问题,不过他…
spark之广播变量设计和实现
spark 广播的方式 spark 历史上采用了两种广播的方式: 一种是通过 Http 协议传输数据; 一种是通过 Torrent 协议来传输数据。 但是最新的 spark 版本中, http 的方式已经废弃了(pr 在…
Spark的内存分配
Spark的堆内内存 Spark之所以比MR快百倍,就是因为是基于内存迭代式计算的,于是就有了DAG有向无环图.所以搞清楚了Spark是怎么管理内存的,对我们后期Spark调优、性能有更深的理解 Spark的内存分为堆内…
Spark1.6.3 cache()和persist()
RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后, ,然后再针对该RDD进行action操作(这里我们假设执行count操作,中间可能经历了一系列transformation…