在大规模数据处理中,这是个比较常见的错误。 报错提示 SparkSQL shuffle操作带来的报错 org.apache.spark.shuffle.MetadataFetchFailedException: Miss…
标签:spark
Spark UDF学习笔记
本文git地址,转载请注明,感谢 UDF(User-defined functions, UDFs),即用户自定义函数,在Spark Sql的开发中十分常用,UDF对表中的每一行进行函数处理,返回新的值,有些类似与RDD…
Spark 调优
大家都知道spark的计算是基于内存的,所以内存的合理使用对spark调优至关重要,其实大方向主要关注三个方面CPU,网络带宽,内存。下文主要覆盖两个方面,一个是网络(数据序列化),一个是内存。 数据序列化 序列化在分布…
为什么说Spark SQL远远超越了MPP SQL
Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。 前言 这里说的并不是性能,因为我没尝试对比过(下文会有简单的说…
spark broadcast
为什么需要broadcast类型变量 ,它有哪些优点? spark中怎样创建和使用broadcast类型变量 ? spark中的具体实现 1. 为什么需要broadcast类型变量 ? 各个slave端都需要同一个数据,…
在win上安装spark以及使用
安装 Anaconda使用总结 http://www.jianshu.com/p/2f3be7781451 Spark在Windows下的环境搭建 http://www.jianshu.com/p/7b325155eda…
Spark Multi Tenancy系列 - 1 简述社区问题
Multi Tenancy 多租户,从软件架构定义,即于多用户的环境共用相同的系统或程序组件,计算资源根据一定的策略进行隔离、竞争、共享,并且仍可确保各用户间数据的隔离性。 对于Spark On Yarn而言,我们已经拥…
spark运行原理、模型
2018/08/02 看了这么久的spark的书,他们都是讲怎么用spark的api去编程,而对于spark内部的运行原理却只字不提,或者言之甚少,重新再去看container和worker的关系,就很难理解这之间的数量…
如何在华为平台使用自己的spark
场景 我们私有云团队在给客户部署系统时遇到困难,客户要求在他们购买的华为大数据平台上部署我们的产品,我们底层主要用到了spark、hdfs、和hive,hdfs和hive可以用华为的,但spark不能用华为的,华为目前只…
从零开始学习Spark(二)Scala基础
Scala基础 Spark的原生语言是Scala,因此入门一下Scala是学习Spark的第一步,下面就快速入门一下,争取不花太多的时间。之后的简书中还会有Scala进阶,交代一些其他特性。这篇Scala基础应该可以暂时…
Spark入门指南 IV - 抛砖引玉的Spark源码开发
文章也同时在个人博客 http://kimihe.com/更新 引言 “Apache Spark™ is a fast and general engine for large-scale da…
Spark Shuffle Write阶段磁盘文件分析
前言 上篇写了 Spark Shuffle 内存分析 后,有不少人提出了疑问,大家也对如何落文件挺感兴趣的,所以这篇文章会详细介绍,Sort Based Shuffle Write 阶段是如何进行落磁盘的 流程分析 入口…