spark中如何划分stage 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,表现为 一个父RDD的分区对应于一个子RDD的分区 两个父RDD的分区对应于一个子RDD 的分区。 宽依赖指子RDD的每个分区都要…
分类:Spark
spark系列——Executor启动过程分析
前言 本篇文章将以问答的方式对Executor的启动进行分析。 1. executor在什么时候开始启动? 新app的加入和集群资源的变动将调用到Master的schedule方法,这个时候会进行startExecuto…
基于spark的时间序列预测包Sparkts._的使用
最近研究了一下时间序列预测的使用,网上找了大部分的资源,都是使用python来实现的,使用python来实现虽然能满足大部分的需求,但是python有一点缺点按就是只能使用一台计算资源进行计算,如果数据量大的时候,就有可…
Spark自定义累加器的实现
Spark自定义累加器的实现 Java版本: package com.luoxuehuan.sparkproject.spark; import org.apache.spark.AccumulatorParam; /*…
Spark Streaming(4) - 反压
1. 前言 Spark Streaming在处理不断流入的数据时通过每间隔一段时间(batch interval)将这段时间内的流入的数据积累为一个batch,然后以这个batch内的数据作为job DAG的输入rdd提…
spark是什么
hadoop有文件系统HDFS,还有用来调度任务的YARN。而SPARK可以在YARN上开一个APPLICATION,然后提交一些JOB上去。 首先启动hadoop的hdfs和yarn,如下:start-dfs.shst…
Spark优化
Spark优化 worker 的资源分配:cpu, memroy, executors spark.yarn.executor.memoryOverhead, 0.1 * spark.executor.memory YA…
hadoop spark HA高可用集群搭建
方案 192.168.211.129 elastic (zookeeper、kafka、hadoop namenode、yarn resourcemanager、hbase hmaster、park master、es …
spark源码编译异常
今天下载了spark的2.3.1版本的源码,准备对spark的源码进行编译,结果抛了错误,具体如下: [ERROR] Failed to execute goal org.apache.maven.plugins:mav…
Spark Core 性能调优之配置进程参数
操作场景 Spark on YARN模式下,有Driver、ApplicationMaster、Executor三种进程。在任务调度和运行的过程中,Dri…
Spark-Core源码精读(6)、SparkContext和SparkEnv
本文我们将详细分析SparkContext的源码。 我们先来看一下SparkConf: SparkConf SparkContext实例化的时候需要传进一个SparkConf作为参数,SparkConf描述整个Spark…
jstorm和spark-streaming的区别
大部分时候大家在选择技术方案的时候还是比较迷茫,是该选择JStorm还是Spark Streaming? 一般会流于一些并不重要问题的讨论,最后做出目光非常短浅的选择,几个月之后再改变技术方案。造成严重的开发量的浪费,甚…