相关配置 Configuration Default Value Meaning spark.ui.port 4040 每个SparkContext都会启动一个Web UI,默认端口为4040;如果多个SparkCont…
标签:spark
Spark 分布式计算框架之环境搭建
Spark 的开发语言是 Scala,而 Scala 运行于 JVM 之上,因此,搭建 Spark 的运行环境应该包括 JDK 和 Scala (本文的操作均在 64位 ubuntu 16.04 操作系统下进行) 1. …
Spark Streaming(二)集成Flume数据
Spark Streaming集成Flume有两种方式,分别是基于Push的和基于Pull的,本篇文档参考Spark官网,基于Spark 2.2.0和Flume 1.6.0 Push-based 这种方式是Flume通过…
Spark系列--OutputFormat 详解
前言 本文主要内容 什么是OutputFormat及其运行机制? 如何自定义自己的OutputFormat? 实战自定义mysql OutputFormat。 一丶什么是OutputFormat? 定义了 spark 的…
如何学习Spark
Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。 Spark是发源于美国加州大学伯克利…
3.4 Spark通信机制
3.4 Spark通信机制 前面介绍过,Spark的部署模式可以分为local、standalone、Mesos、YARN等。 本节以Spark部署在standalone模式下为例,介绍Spark的通信机制(其他模式类似…
[译]Spark Streaming + Kafka集成指南
本文适用于Kafka broker 0.8.2.1及更高版本。 这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法 – 老方法使用Receiver和Kafka的高层API,新方法…
spark streaming stateful DStream 持久保存RDD/有状态的内存
在面向流处理的分布式计算中,经常会有这种需求,希望需要处理的某个数据集能够不随着流式数据的流逝而消失。 以spark streaming为例,就是希望有个数据集能够在当前批次中更新,再下个批次后又可以继续访问。一个最简单…
Spark jar包问题
通常我们将spark任务编写后打包成jar包,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotFound的错误。 下面有二个解决方…
11.spark sql之RDD转换DataSet
简介 Spark SQL提供了两种方式用于将RDD转换为Dataset。 使用反射机制推断RDD的数据结构 当spark应用可以推断RDD数据结构时,可使用这种方式。这种基于反射的方法可以使代码更简洁有效。 通过…
Spark-on-Yarn资源调度和作业调度
作业调度 Spark默认采取FIFO策略运行多个Jobs,它提供一个队列来保存已经提交的Jobs,如果队头的Job不需要占用所有的集群资源,那么后续的 Job可以立即运行,但是如果队头的Job需要占用所有的集群资源,且运…
Spark-Streaming 文档之性能调优
性能优化 要想使你的Spark流处理应用能够获得更好地性能,你需要大量的优化工作。在这一节中,我们提供了许多配置和参数来对你的程序进行改进。首先你需要从两个方面出发来考虑优化工作。 通过有效的的使用集群资源来降低每个批次…