分类：Spark

hadoop+spark 整合

zookeeper安装 zookeeper3.4.6安装 spark高可用安装完成 spark高可用安装 hadoop安装 hadoop安装整合hadoop+spark 配置spark+hadoop HADOOP_CO…

摘要：Shuffle是MapReduce编程模型中最耗时的一个步骤，而Spark将Shuffle过程分解成了Shuffle Write和Shuffle Read两个过程，本文我们将详细解读Spark的Shuffle Wr…

职责等待DAGScheduler job完成，一个JobWaiter对象与一个job唯一一一对应一旦task完成，将该task结果填充到SparkContext.runJob创建的results数组中构造函数 pr…

通过源码呈现 Spark Streaming 的底层机制。　1. 初始化与接收数据 Spark Streaming 通过分布在各个节点上的接收器，缓存接收到的流数据，并将流数据包装成 Spark 能够处理…

一、Spark简介 spark的特点 (1) 运行速度快使用DAG执行引擎以支持循环数据流与内存计算 (2) 容易使用支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell 进行交…

我的原创地址：https://dongkelun.com/2018/06/25/KafkaUV/ 前言本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次，这个看…

一、背景当采用随机数和扩容表进行join解决数据倾斜的时候，就代表着，你的之前的数据倾斜的解决方案，都没法使用。这个方案是没办法彻底解决数据倾斜的，更多的，是一种对数据倾斜的缓解。原理，其实在上一讲，已经带出来了。…

阅读本篇博文时，请先理解RDD的描述及作业调度：[《深入理解Spark 2.1 Core （一）：RDD的原理与源码分析》]（http://blog.csdn.net/u011239443/article/detail…

1. 简要说明基于spark 2.3.1版本学习spark基础知识及整体框架。本文首先以python版为主进行描述，后期会主要针对scala版本进行详细讲解。 2. spark学习环境搭建 spark安装包下载地址 h…

文章地址：http://www.haha174.top/article/details/255951 本文针对上一篇博客介绍一个聚合函数的例子巩固一下sql 定义函数。首先需要定义一个聚合函数 class String…

1. 问题背景 2. 原理分析 2.1 Executor生命周期 2.2 ExecutorAllocationManager上下游调用关系 3. 总结与反思 4. Community Feedback 1.问题背景用户…

任务集管理模块TaskSetManager详解前面提到，dagscheduler负责将一组任务提交给taskscheduler以后，这组任务的调度任务对于他来说就算完成了。接下来这组任务内部的调度逻辑则是由tastse…