spark通信流程 概述 spark作为一套高效的分布式运算框架,但是想要更深入的学习它,就要通过分析spark的源码,不但可以更好的帮助理解spark的工作过程,还可以提高对集群的排错能力,本文主要关注的是Spark的…
分类:Spark
spark streaming + kafka +python(编程)初探
一、环境部署 hadoop集群2.7.1 zookeerper集群 kafka集群:kafka_2.11-0.10.0.0 spark集群:spark-2.0.1-bin-hadoop2.7.tgz 环境搭建可参考我前面…
Spark的位置优先: TaskSetManager 的有效 Locality Levels
based on spark-1.5.1 standalone mode 在Spark Application Web UI的 Stages tag 上,我们可以看到这个的表格,描述的是某个 stage 的 tasks …
spark提交参数解析
上一节学习了Spark源码的编译方法,这一节我们跟踪一下spark-shell的启动. spark-shell是spark提供一个控制台,通过它我们可以方便的学习spark的API,类似于Scala的REPL. spar…
Spark-SQL之DataFrame基本操作
这篇文章将带大家一起学习Spark中DataFrame的基本操作。 1、创建DataFrame 本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下: val spark = SparkSession…
Spark Streaming中简单粗暴执行TensorFlow
Spark Streaming =>很火,在流处理中得到了广泛的应用。TensorFlow=>很火,由Google大神开源,目前已经在深度学习领域展现了超高的流行潜质。那么如何在Spark Streaming…
【Spark】DataSource API
什么是Spark Datasource API Spark Datasource API 是一套连接外部数据源和Spark引擎的框架 它主要是给Spark框架提供一种快速读取外界数据的能力,它可以方便地把不同的数据格式通…
Spark性能调优篇八之shuffle调优(重要)
本篇文章来介绍一个重量级的Spark调优机制,就是我们常说的shuffle调优。在讲解shuffle调优之前,我们先来明确一个概念,什么是shuffle操作? 问题:什么是shuffle? 答案:每个Spark作业启动运…
log4j配置-spark on yarn client mode
spark streaming的程序如果运行方式是yarn client mode,那么如何指定driver和executor的log4j配置文件? Driver 添加参数--driver-java-options sp…
解决spark中遇到的数据倾斜问题
一. 数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 二. 数据倾斜的原因 常见于各种shuffle操作,例如reduceByKey,groupByKe…
Spark- OutOfMemoryError
java.lang.OutOfMemoryError: heap space java.lang.OutOfMemoryError: unable to create new native threadjava.lang…
CDH 运行Spark 应用程序
翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_running_spark_apps.html 版本: 5.14.2 …