Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块。作为使用者的我们,搞清楚 Spark 是如何管理内存的,对我们编码、调试及优化过程会有很大帮助。本文之所以取名为 “Spar…
分类:Spark
Spark团队新作MLFlow 解决了什么问题
前言 中午的时候看到了Spark团队新作MLFlow,因为我本身也在做类似的解决方案MLSQL,自然要看看Meitai是怎么做的。所以第一时间把MLFlow相关文档 浏览了一遍,并且将MLFlow源码 clone下来大致…
14 Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
Spark Streaming中的数据是源源不断流进来的,有时候我们需要计算一些周期性的统计,就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…
Spark On YARN 集群安装部署
本文展示了在之前搭建的Hadoop分布式集群的基础上如何搭建Spark分布式集群环境 一、已有环境 ubuntu 14.04 hadoop 2.7.1 集群安装参考 三台机器 master、slave1、slave2 二…
spark的RDD五大特点
RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算…
如何取消已经提交的Spark任务
使用一个SparkContext时,可以针对不同的Job进行分组提交和取消: 分组提交任务 // 提交任务 private SparkContext sc; private SQLContext sqlc; sc.set…
SparkStreaming之读取Kafka数据
本文主要记录使用SparkStreaming从Kafka里读取数据,并计算WordCount 主要内容: 1.本地模式运行SparkStreaming 2.yarn-client模式运行 相关文章: 1.Spark之PI…
Spark SQL日期加减,date_sub,date_add
val dateDF=spark.range(10) .withColumn("today",current_date()) .withColumn("now",current_timestamp()) dateDF.c…
【Spark】简单入门——HelloWorld
环境 IntelliJ IDEA + Maven + Spark_2.1.1 JDK_1.8.0_131 Scala_2.11.0 语言 Java Scala 目的 读取README.md文件并显示文件内容 过程 新建工…
Mac下spark环境的搭建
安装前必备的环境: mac操作系统:本人是10.12.6 JDK:1.8.0 软件包管理工具:brew 1、配置ssh 配置ssh就是为了能够实现免密登录,这样方便远程管理Hadoop并无需登录密码在Hadoop集群上共…
spark streamingcontext 一些注意点
有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new Stre…
PySpark笔记(二):RDD
RDD(Resilient Distributed Dataset),全称弹性分布式数据集,是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合,他可以包含Python、Java、Sca…