相关配置 Configuration Default Value Meaning spark.ui.port 4040 每个SparkContext都会启动一个Web UI,默认端口为4040;如果多个SparkCont…
分类:Spark
Spark 分布式计算框架之环境搭建
Spark 的开发语言是 Scala,而 Scala 运行于 JVM 之上,因此,搭建 Spark 的运行环境应该包括 JDK 和 Scala (本文的操作均在 64位 ubuntu 16.04 操作系统下进行) 1. …
Spark Streaming(二)集成Flume数据
Spark Streaming集成Flume有两种方式,分别是基于Push的和基于Pull的,本篇文档参考Spark官网,基于Spark 2.2.0和Flume 1.6.0 Push-based 这种方式是Flume通过…
Spark系列--OutputFormat 详解
前言 本文主要内容 什么是OutputFormat及其运行机制? 如何自定义自己的OutputFormat? 实战自定义mysql OutputFormat。 一丶什么是OutputFormat? 定义了 spark 的…
Spark 如何写入HBase/Redis/MySQL/Kafka
这篇文章是给Spark初学者写的,老手就不要看了。文章谈及如何和HBase/Redis/MySQL/Kafka等进行交互的方法,主要是为了让大家明白其内部机制 一些概念 一个partition 对应一个task,一个ta…
如何学习Spark
Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。 Spark是发源于美国加州大学伯克利…
3.4 Spark通信机制
3.4 Spark通信机制 前面介绍过,Spark的部署模式可以分为local、standalone、Mesos、YARN等。 本节以Spark部署在standalone模式下为例,介绍Spark的通信机制(其他模式类似…
[译]Spark Streaming + Kafka集成指南
本文适用于Kafka broker 0.8.2.1及更高版本。 这里会说明如何配置Spark Streaming接收Kafka的数据。有两种方法 – 老方法使用Receiver和Kafka的高层API,新方法…
spark streaming stateful DStream 持久保存RDD/有状态的内存
在面向流处理的分布式计算中,经常会有这种需求,希望需要处理的某个数据集能够不随着流式数据的流逝而消失。 以spark streaming为例,就是希望有个数据集能够在当前批次中更新,再下个批次后又可以继续访问。一个最简单…
Spark 持久化(cache和persist的区别)
我的原创地址:https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可…
Spark SQL,正则替换,regexp_extract
val regexString1=simpleColors.map(_.toUpperCase).mkString("(","|",")") df.select(regexp_extract(col("Descripti…
11.spark sql之RDD转换DataSet
简介 Spark SQL提供了两种方式用于将RDD转换为Dataset。 使用反射机制推断RDD的数据结构 当spark应用可以推断RDD数据结构时,可使用这种方式。这种基于反射的方法可以使代码更简洁有效。 通过…