本文全部手写原创,请勿复制粘贴、转载请注明出处,谢谢配合! Action操作和Transformation操作的区别 惰性求值:Action操作会触发实际的计算,而Transformation是没有触发实际计算的,是惰性…
分类:Spark
Spark on Yarn 为什么出现内存超界container被kill
一个Executor对应一个JVM进程。 从Spark的角度看,Executor占用的内存分为两部分:ExecutorMemory和MemoryOverhead。其中,ExecutorMemory为JVM进程的Java堆…
《从0到1学习Spark》--DataFrame和Dataset探秘
昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件:Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起…
PySpark运行原理
背景:spark的代码很多是由Java写成的,自从spark为Python开放了借口之后,Python使用者也可以轻松利用spark进行分布式存储和运算,其中的原理是什么?写一点个人理解,可能不够严谨。 py4j-百度百…
你想成为Spark高手吗?只要这6步!
伴随Spark技术的普及推广,对专业人才的需求日益增加。Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的薪酬。而要想成为Spark高手,也需要一招一式,从内功练起:以下6个阶段,高手必经之路。 1.熟练掌握S…
Spark快速入门-2-Spark的编程模型
准备 2017-12-19-Hadoop2.0架构及HA集群配置(1) 2017-12-24-Hadoop2.0架构及HA集群配置(2) 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Sp…
spark从入门到放弃四十三:Spark Streaming(3)与storm 对比
文章地址:http://www.haha174.top/article/details/256486 1.storm简介 Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spou…
【Spark Java API】Transformation(12)—zipPartitions、zip
zipPartitions 官方文档描述: Zip this RDD's partitions with one (or more) RDD(s) and return a new RDD by applying a f…
Spark on Yarn 部分一原理及使用
Spark on Yarn 首先这部分分为源码部分以及实例部分,例子中包括最基本的通过spark-submit提交以及程序中提交yarn 这里仅仅说明Spark on Yarn的第一部分,分为三块: 原理 spark-s…
Spark Core - 高效的使用 RDD join
Spark 作为分布式的计算框架,最为影响其执行效率的地方就是频繁的网络传输。所以一般的,在不存在数据倾斜的情况下,想要提高 Spark job 的执行效率,就尽量减少 job 的 shuffle 过程(减少 job 的…
[spark] TaskScheduler 任务提交与调度源码解析
在DAGScheduler划分为Stage并以TaskSet的形式提交给TaskScheduler后,再由TaskScheduler通过TaskSetMagager对taskSet的task进行调度与执行。 taskSc…
【Spark】Stage生成和Stage源码浅析
引入 上一篇文章《DAGScheduler源码浅析》中,介绍了handleJobSubmitted函数,它作为生成finalStage的重要函数存在,这一篇文章中,我将就DAGScheduler生成Stage过程继续学习…