分类：Spark

spark中如何划分stage（面试）

spark中如何划分stage 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区两个父RDD的分区对应于一个子RDD 的分区。宽依赖指子RDD的每个分区都要…

前言本篇文章将以问答的方式对Executor的启动进行分析。 1. executor在什么时候开始启动？新app的加入和集群资源的变动将调用到Master的schedule方法，这个时候会进行startExecuto…

最近研究了一下时间序列预测的使用，网上找了大部分的资源，都是使用python来实现的，使用python来实现虽然能满足大部分的需求，但是python有一点缺点按就是只能使用一台计算资源进行计算，如果数据量大的时候，就有可…

Spark自定义累加器的实现 Java版本： package com.luoxuehuan.sparkproject.spark; import org.apache.spark.AccumulatorParam; /*…

1. 前言 Spark Streaming在处理不断流入的数据时通过每间隔一段时间(batch interval)将这段时间内的流入的数据积累为一个batch，然后以这个batch内的数据作为job DAG的输入rdd提…

hadoop有文件系统HDFS，还有用来调度任务的YARN。而SPARK可以在YARN上开一个APPLICATION，然后提交一些JOB上去。首先启动hadoop的hdfs和yarn，如下：start-dfs.shst…

Spark优化 worker 的资源分配：cpu, memroy, executors spark.yarn.executor.memoryOverhead, 0.1 * spark.executor.memory YA…

方案 192.168.211.129 elastic （zookeeper、kafka、hadoop namenode、yarn resourcemanager、hbase hmaster、park master、es …

今天下载了spark的2.3.1版本的源码，准备对spark的源码进行编译，结果抛了错误，具体如下： [ERROR] Failed to execute goal org.apache.maven.plugins:mav…

操作场景 Spark on YARN模式下，有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中，Dri…

本文我们将详细分析SparkContext的源码。我们先来看一下SparkConf： SparkConf SparkContext实例化的时候需要传进一个SparkConf作为参数，SparkConf描述整个Spark…

大部分时候大家在选择技术方案的时候还是比较迷茫，是该选择JStorm还是Spark Streaming？一般会流于一些并不重要问题的讨论，最后做出目光非常短浅的选择，几个月之后再改变技术方案。造成严重的开发量的浪费，甚…