分类：Spark

【源码剖析】- Spark 新旧内存管理方案（上）

Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块。作为使用者的我们，搞清楚 Spark 是如何管理内存的，对我们编码、调试及优化过程会有很大帮助。本文之所以取名为 “Spar…

前言中午的时候看到了Spark团队新作MLFlow，因为我本身也在做类似的解决方案MLSQL,自然要看看Meitai是怎么做的。所以第一时间把MLFlow相关文档浏览了一遍，并且将MLFlow源码 clone下来大致…

Spark Streaming中的数据是源源不断流进来的，有时候我们需要计算一些周期性的统计，就不得不维护一下数据的状态。在Spark Streaming中状态管理有两种方式。一种是updateStateByKey,另一…

本文展示了在之前搭建的Hadoop分布式集群的基础上如何搭建Spark分布式集群环境一、已有环境 ubuntu 14.04 hadoop 2.7.1 集群安装参考三台机器 master、slave1、slave2 二…

RDD的5大特点 1）有一个分片列表，就是能被切分，和Hadoop一样，能够切分的数据才能并行计算。一组分片（partition），即数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算…

使用一个SparkContext时，可以针对不同的Job进行分组提交和取消：分组提交任务 // 提交任务 private SparkContext sc; private SQLContext sqlc; sc.set…

本文主要记录使用SparkStreaming从Kafka里读取数据，并计算WordCount 主要内容： 1.本地模式运行SparkStreaming 2.yarn-client模式运行相关文章： 1.Spark之PI…

val dateDF=spark.range(10) .withColumn("today",current_date()) .withColumn("now",current_timestamp()) dateDF.c…

环境 IntelliJ IDEA + Maven + Spark_2.1.1 JDK_1.8.0_131 Scala_2.11.0 语言 Java Scala 目的读取README.md文件并显示文件内容过程新建工…

安装前必备的环境： mac操作系统：本人是10.12.6 JDK：1.8.0 软件包管理工具：brew 1、配置ssh 配置ssh就是为了能够实现免密登录，这样方便远程管理Hadoop并无需登录密码在Hadoop集群上共…

有两种创建StreamingContext的方式： val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new Stre…

RDD（Resilient Distributed Dataset），全称弹性分布式数据集，是Spark对数据进行的核心抽象概念。我们可以将RDD理解为一个不可变的分布式对象集合，他可以包含Python、Java、Sca…