分类：Spark

spark源码分析Master与Worker启动流程篇

spark通信流程概述 spark作为一套高效的分布式运算框架，但是想要更深入的学习它，就要通过分析spark的源码，不但可以更好的帮助理解spark的工作过程，还可以提高对集群的排错能力，本文主要关注的是Spark的…

一、环境部署 hadoop集群2.7.1 zookeerper集群 kafka集群：kafka_2.11-0.10.0.0 spark集群：spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面…

based on spark-1.5.1 standalone mode 在Spark Application Web UI的 Stages tag 上，我们可以看到这个的表格，描述的是某个 stage 的 tasks …

上一节学习了Spark源码的编译方法，这一节我们跟踪一下spark-shell的启动. spark-shell是spark提供一个控制台，通过它我们可以方便的学习spark的API，类似于Scala的REPL. spar…

这篇文章将带大家一起学习Spark中DataFrame的基本操作。 1、创建DataFrame 本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下: val spark = SparkSession…

Spark Streaming =>很火，在流处理中得到了广泛的应用。TensorFlow=>很火，由Google大神开源，目前已经在深度学习领域展现了超高的流行潜质。那么如何在Spark Streaming…

什么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架它主要是给Spark框架提供一种快速读取外界数据的能力，它可以方便地把不同的数据格式通…

本篇文章来介绍一个重量级的Spark调优机制，就是我们常说的shuffle调优。在讲解shuffle调优之前，我们先来明确一个概念，什么是shuffle操作？问题：什么是shuffle？答案：每个Spark作业启动运…

spark streaming的程序如果运行方式是yarn client mode，那么如何指定driver和executor的log4j配置文件？ Driver 添加参数--driver-java-options sp…

一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByKe…

java.lang.OutOfMemoryError: heap space java.lang.OutOfMemoryError: unable to create new native threadjava.lang…

翻译： https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_running_spark_apps.html 版本： 5.14.2 …