分类：Spark

谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现

流式计算框架编程接口的标准化，傻瓜化，SQL化，自打谷歌发表Dataflow编程模型的Paper起，就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题，俨然成为大家竞争的热点方向。在过去一年多的时间里，Beam／F…

用户编写的spark程序打包成jar后提交到yarn执行时，经常会遇到jar包中明显存在某个类，但任务提交到yarn运行时却找不到类或方法（java.lang.NoSuchMethodError）的问题。本文总结下产生此…

一问题背景平台近期出现多次spark任务日志文件将磁盘打满，导致平台异常报警和任务失败的情况，这些任务包括Spark-Streaming任务和普通Spark任务。产生该问题的原因主要是： Spark-Streamin…

Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…

本文1、2、3节介绍了Spark 内存相关之识，第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor 的内存管理建立在 JVM 的内存管理之上，Spark 对 JVM 的空间（H…

eclipse插件安装 eclipse版本：Luna Release(4.4.0) 这里需要安装有关maven和scala的插件。 m2e插件 m2e插件用于提供maven功能。直接在eclipse的Marketplac…

闲来无事，研究一下Spark Rdd的处理过程。以一个简单的例子看看： val textRDD = sc.textFile("/home/ubuntu/people.txt") val filterRDD = text…

本文翻译自 http://xinhstechblog.blogspot.com/2014/06/storm-vs-spark-streaming-side-by-side.html 另，首先在 http://www.cn…

本文介绍下Spark 到底是如何运行sc.TextFile(…).map(….).count() 这种代码的，从driver端到executor端。引子今天正好有人在群里问到相关的问题，不过他…

spark 广播的方式 spark 历史上采用了两种广播的方式：一种是通过 Http 协议传输数据；一种是通过 Torrent 协议来传输数据。但是最新的 spark 版本中， http 的方式已经废弃了（pr 在…

Spark的堆内内存 Spark之所以比MR快百倍,就是因为是基于内存迭代式计算的,于是就有了DAG有向无环图.所以搞清楚了Spark是怎么管理内存的,对我们后期Spark调优、性能有更深的理解 Spark的内存分为堆内…

RDD的持久化也就是说假如我们从hdfs读取文件，形成RDD。当我们对RDD进行持久化操作之后，，然后再针对该RDD进行action操作（这里我们假设执行count操作，中间可能经历了一系列transformation…