zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装 整合hadoop+spark 配置spark+hadoop HADOOP_CO…
分类:Spark
Spark源码解析之Shuffle Writer
摘要:Shuffle是MapReduce编程模型中最耗时的一个步骤,而Spark将Shuffle过程分解成了Shuffle Write和Shuffle Read两个过程,本文我们将详细解读Spark的Shuffle Wr…
[Spark源码剖析] JobWaiter
职责 等待DAGScheduler job完成,一个JobWaiter对象与一个job唯一一一对应 一旦task完成,将该task结果填充到SparkContext.runJob创建的results数组中 构造函数 pr…
Spark Streaming 原理剖析
通过源码呈现 Spark Streaming 的底层机制。 1. 初始化与接收数据 Spark Streaming 通过分布在各个节点上的接收器,缓存接收到的流数据,并将流数 据 包 装 成 Spark 能 够 处 理…
spark的设计与运行原理
一、Spark简介 spark的特点 (1) 运行速度快 使用DAG执行引擎以支持循环数据流与内存计算 (2) 容易使用 支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell 进行交…
SparkStreaming+Kafka 实现统计基于缓存的实时uv
我的原创地址:https://dongkelun.com/2018/06/25/KafkaUV/ 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看…
Spark(四十二)数据倾斜解决方案之使用随机数以及扩容表进行join
一、背景 当采用随机数和扩容表进行join解决数据倾斜的时候,就代表着,你的之前的数据倾斜的解决方案,都没法使用。 这个方案是没办法彻底解决数据倾斜的,更多的,是一种对数据倾斜的缓解。 原理,其实在上一讲,已经带出来了。…
RDD Join 性能调优
阅读本篇博文时,请先理解RDD的描述及作业调度:[《深入理解Spark 2.1 Core (一):RDD的原理与源码分析 》](http://blog.csdn.net/u011239443/article/detail…
大数据 -【spark入门】
1. 简要说明 基于spark 2.3.1版本学习spark基础知识及整体框架。本文首先以python版为主进行描述,后期会主要针对scala版本进行详细讲解。 2. spark学习环境搭建 spark安装包下载地址 h…
spark从入门到放弃三十八:Spark Sql(11)自定义sql函数进阶
文章地址:http://www.haha174.top/article/details/255951 本文针对上一篇博客介绍一个聚合函数的例子巩固一下sql 定义函数。 首先需要定义一个聚合函数 class String…
Spark:Dynamic Resource Allocation【动态资源分配】
1. 问题背景 2. 原理分析 2.1 Executor生命周期 2.2 ExecutorAllocationManager上下游调用关系 3. 总结与反思 4. Community Feedback 1.问题背景 用户…
Spark源码分析:TaskSetManager
任务集管理模块TaskSetManager详解 前面提到,dagscheduler负责将一组任务提交给taskscheduler以后,这组任务的调度任务对于他来说就算完成了。接下来这组任务内部的调度逻辑则是由tastse…