标签：spark

Spark Shuffle FetchFailedException解决方案

在大规模数据处理中，这是个比较常见的错误。报错提示 SparkSQL shuffle操作带来的报错 org.apache.spark.shuffle.MetadataFetchFailedException: Miss…

本文git地址，转载请注明，感谢 UDF(User-defined functions, UDFs),即用户自定义函数，在Spark Sql的开发中十分常用，UDF对表中的每一行进行函数处理，返回新的值，有些类似与RDD…

大家都知道spark的计算是基于内存的，所以内存的合理使用对spark调优至关重要，其实大方向主要关注三个方面CPU，网络带宽，内存。下文主要覆盖两个方面，一个是网络（数据序列化），一个是内存。数据序列化序列化在分布…

Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。前言这里说的并不是性能，因为我没尝试对比过（下文会有简单的说…

为什么需要broadcast类型变量 ,它有哪些优点? spark中怎样创建和使用broadcast类型变量 ? spark中的具体实现 1. 为什么需要broadcast类型变量 ? 各个slave端都需要同一个数据,…

安装 Anaconda使用总结 http://www.jianshu.com/p/2f3be7781451 Spark在Windows下的环境搭建 http://www.jianshu.com/p/7b325155eda…

Multi Tenancy 多租户，从软件架构定义，即于多用户的环境共用相同的系统或程序组件，计算资源根据一定的策略进行隔离、竞争、共享，并且仍可确保各用户间数据的隔离性。对于Spark On Yarn而言，我们已经拥…

2018/08/02 看了这么久的spark的书，他们都是讲怎么用spark的api去编程，而对于spark内部的运行原理却只字不提，或者言之甚少，重新再去看container和worker的关系，就很难理解这之间的数量…

场景我们私有云团队在给客户部署系统时遇到困难，客户要求在他们购买的华为大数据平台上部署我们的产品，我们底层主要用到了spark、hdfs、和hive，hdfs和hive可以用华为的，但spark不能用华为的，华为目前只…

Scala基础 Spark的原生语言是Scala，因此入门一下Scala是学习Spark的第一步，下面就快速入门一下，争取不花太多的时间。之后的简书中还会有Scala进阶，交代一些其他特性。这篇Scala基础应该可以暂时…

文章也同时在个人博客 http://kimihe.com/更新引言 “Apache Spark™ is a fast and general engine for large-scale da…

前言上篇写了 Spark Shuffle 内存分析后,有不少人提出了疑问，大家也对如何落文件挺感兴趣的，所以这篇文章会详细介绍，Sort Based Shuffle Write 阶段是如何进行落磁盘的流程分析入口…