分类：Spark

Spark入门教程（六）弹性分布式数据集Rdd的Action操作

本文全部手写原创，请勿复制粘贴、转载请注明出处，谢谢配合！ Action操作和Transformation操作的区别惰性求值：Action操作会触发实际的计算，而Transformation是没有触发实际计算的，是惰性…

一个Executor对应一个JVM进程。从Spark的角度看，Executor占用的内存分为两部分：ExecutorMemory和MemoryOverhead。其中，ExecutorMemory为JVM进程的Java堆…

昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件：Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起…

背景：spark的代码很多是由Java写成的，自从spark为Python开放了借口之后，Python使用者也可以轻松利用spark进行分布式存储和运算，其中的原理是什么？写一点个人理解，可能不够严谨。 py4j-百度百…

伴随Spark技术的普及推广，对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热，轻而易举可以拿到百万的薪酬。而要想成为Spark高手，也需要一招一式，从内功练起：以下6个阶段，高手必经之路。 1.熟练掌握S…

准备 2017-12-19-Hadoop2.0架构及HA集群配置（1） 2017-12-24-Hadoop2.0架构及HA集群配置（2） 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Sp…

文章地址：http://www.haha174.top/article/details/256486 1.storm简介 Storm是一个分布式的，可靠的，容错的数据流处理系统。Storm集群的输入流由一个被称作spou…

zipPartitions 官方文档描述： Zip this RDD's partitions with one (or more) RDD(s) and return a new RDD by applying a f…

Spark on Yarn 首先这部分分为源码部分以及实例部分，例子中包括最基本的通过spark-submit提交以及程序中提交yarn 这里仅仅说明Spark on Yarn的第一部分，分为三块：原理 spark-s…

Spark 作为分布式的计算框架，最为影响其执行效率的地方就是频繁的网络传输。所以一般的，在不存在数据倾斜的情况下，想要提高 Spark job 的执行效率，就尽量减少 job 的 shuffle 过程(减少 job 的…

在DAGScheduler划分为Stage并以TaskSet的形式提交给TaskScheduler后，再由TaskScheduler通过TaskSetMagager对taskSet的task进行调度与执行。 taskSc…

引入上一篇文章《DAGScheduler源码浅析》中，介绍了handleJobSubmitted函数，它作为生成finalStage的重要函数存在，这一篇文章中，我将就DAGScheduler生成Stage过程继续学习…