分类：Spark

Spark 调优

大家都知道spark的计算是基于内存的，所以内存的合理使用对spark调优至关重要，其实大方向主要关注三个方面CPU，网络带宽，内存。下文主要覆盖两个方面，一个是网络（数据序列化），一个是内存。数据序列化序列化在分布…

前言 SparkStreaming 7*24 小时不间断的运行，有时需要管理一些状态，比如wordCount，每个batch的数据不是独立的而是需要累加的，这时就需要sparkStreaming来维护一些状态，目前有两种…

Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。前言这里说的并不是性能，因为我没尝试对比过（下文会有简单的说…

为什么需要broadcast类型变量 ,它有哪些优点? spark中怎样创建和使用broadcast类型变量 ? spark中的具体实现 1. 为什么需要broadcast类型变量 ? 各个slave端都需要同一个数据,…

安装 Anaconda使用总结 http://www.jianshu.com/p/2f3be7781451 Spark在Windows下的环境搭建 http://www.jianshu.com/p/7b325155eda…

Multi Tenancy 多租户，从软件架构定义，即于多用户的环境共用相同的系统或程序组件，计算资源根据一定的策略进行隔离、竞争、共享，并且仍可确保各用户间数据的隔离性。对于Spark On Yarn而言，我们已经拥…

reduce 官方文档描述： Reduces the elements of this RDD using the specified commutative and associative binary operato…

2018/08/02 看了这么久的spark的书，他们都是讲怎么用spark的api去编程，而对于spark内部的运行原理却只字不提，或者言之甚少，重新再去看container和worker的关系，就很难理解这之间的数量…

Scala基础 Spark的原生语言是Scala，因此入门一下Scala是学习Spark的第一步，下面就快速入门一下，争取不花太多的时间。之后的简书中还会有Scala进阶，交代一些其他特性。这篇Scala基础应该可以暂时…

文章也同时在个人博客 http://kimihe.com/更新引言 “Apache Spark™ is a fast and general engine for large-scale da…

有时候在编写Spark代码的时候本地调试通过但是提交到集群后无法运行，报如下错误： java.util.NoSuchElementException: None.get at at ....... 出现原因出现这种报错…

大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。本文将…