大家都知道spark的计算是基于内存的,所以内存的合理使用对spark调优至关重要,其实大方向主要关注三个方面CPU,网络带宽,内存。下文主要覆盖两个方面,一个是网络(数据序列化),一个是内存。 数据序列化 序列化在分布…
分类:Spark
[spark streaming] 状态管理 updateStateByKey&mapWithState
前言 SparkStreaming 7*24 小时不间断的运行,有时需要管理一些状态,比如wordCount,每个batch的数据不是独立的而是需要累加的,这时就需要sparkStreaming来维护一些状态,目前有两种…
为什么说Spark SQL远远超越了MPP SQL
Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。 前言 这里说的并不是性能,因为我没尝试对比过(下文会有简单的说…
spark broadcast
为什么需要broadcast类型变量 ,它有哪些优点? spark中怎样创建和使用broadcast类型变量 ? spark中的具体实现 1. 为什么需要broadcast类型变量 ? 各个slave端都需要同一个数据,…
在win上安装spark以及使用
安装 Anaconda使用总结 http://www.jianshu.com/p/2f3be7781451 Spark在Windows下的环境搭建 http://www.jianshu.com/p/7b325155eda…
Spark Multi Tenancy系列 - 1 简述社区问题
Multi Tenancy 多租户,从软件架构定义,即于多用户的环境共用相同的系统或程序组件,计算资源根据一定的策略进行隔离、竞争、共享,并且仍可确保各用户间数据的隔离性。 对于Spark On Yarn而言,我们已经拥…
【Spark Java API】Action(1)—reduce、aggregate
reduce 官方文档描述: Reduces the elements of this RDD using the specified commutative and associative binary operato…
spark运行原理、模型
2018/08/02 看了这么久的spark的书,他们都是讲怎么用spark的api去编程,而对于spark内部的运行原理却只字不提,或者言之甚少,重新再去看container和worker的关系,就很难理解这之间的数量…
从零开始学习Spark(二)Scala基础
Scala基础 Spark的原生语言是Scala,因此入门一下Scala是学习Spark的第一步,下面就快速入门一下,争取不花太多的时间。之后的简书中还会有Scala进阶,交代一些其他特性。这篇Scala基础应该可以暂时…
Spark入门指南 IV - 抛砖引玉的Spark源码开发
文章也同时在个人博客 http://kimihe.com/更新 引言 “Apache Spark™ is a fast and general engine for large-scale da…
Spark--java.util.NoSuchElementException: None.get at at
有时候在编写Spark代码的时候本地调试通过但是提交到集群后无法运行,报如下错误: java.util.NoSuchElementException: None.get at at ....... 出现原因 出现这种报错…
五种大数据处理架构Hadoop、Storm、Samza、Spark、Flink
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将…