RDD 操作一 基础 ,放入方法,闭包,输出元素,使用 Key-Value 工作 原文地址: http://spark.apache.org/docs/latest/programming-guide.html 仅限交流…
分类:Spark
Spark - 直接操作数据源 MySQL
> 如果我们的Mysql服务器性能不咋滴,但是硬盘很够,如何才能做各种复杂的聚合操作?答案就是使用spark的计算能力的,我们可以将mysql数据源接入到spark中。 ## 读取 “` val mys…
Geotrellis学习-入门
什么是Geotrellis Geotrellis是一个基于Apache spark的用于处理栅格数据的scala库和框架。 可以高效地读写和操作栅格数据,实现了很多地图运算和失栅转换工具。 可以将栅格数据渲染成PNGs图…
PySpark运行原理
背景:spark的代码很多是由Java写成的,自从spark为Python开放了借口之后,Python使用者也可以轻松利用spark进行分布式存储和运算,其中的原理是什么?写一点个人理解,可能不够严谨。 py4j-百度百…
Spark操作多HDFS集群
由于特殊需求,需要在一次Spark任务中切换HDFS集群。 本文我将介绍如何在一次的spark任务中操作不同的HDFS集群 我们以wordcount为例,分析如何配置。我们的输入数据源来自cluster1的HDFS,需要…
spark的RDD五大特点
RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算…
【Spark Java API】Transformation(10)—combineByKey、groupByKey
combineByKey 官方文档描述: Generic function to combine the elements for each key using a custom set of aggregation f…
【Spark Core】TaskScheduler源码与任务提交原理浅析2
引言 上一节《TaskScheduler源码与任务提交原理浅析1》介绍了TaskScheduler的创建过程,在这一节中,我将承接《Stage生成和Stage源码浅析》中的submitMissingTasks函数继续介绍…
关于spark实时计算的checkpoint
怪就怪之前之前对spark streaming和structed streaming不熟悉,因为之前的实时计算都在用storm。 这两天遇到一个问题,我在公司平台上提交spark streaming任务,测试的时候感觉没…
Scala - DataFrame
基本概念 What’s DataFrame A DataFrame is equivalent to a relational table in Spark SQL [1]。 DataFrame的前身是Sch…
Kylin 与 Spark SQL的差异性
// Kylin 与 Spark SQL的差异性 – 惊帆的BLOG http://www.bucry.com/archives/1893.html Kylin在目前成为大数据平台的神兽,其主要的逻辑的是针对…
Spark:将DataFrame 写入mysql
DataFrame 写入mysql import java.io.FileInputStream import java.sql.{Connection, DriverManager} import java.util.…