分类：Spark

Spark 3. RDD 操作一基础，放入方法，闭包，输出元素, 使用 K-V 工作

RDD 操作一基础，放入方法，闭包，输出元素,使用 Key-Value 工作原文地址： http://spark.apache.org/docs/latest/programming-guide.html 仅限交流…

> 如果我们的Mysql服务器性能不咋滴，但是硬盘很够，如何才能做各种复杂的聚合操作？答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。 ## 读取 “` val mys…

什么是Geotrellis Geotrellis是一个基于Apache spark的用于处理栅格数据的scala库和框架。可以高效地读写和操作栅格数据，实现了很多地图运算和失栅转换工具。可以将栅格数据渲染成PNGs图…

背景：spark的代码很多是由Java写成的，自从spark为Python开放了借口之后，Python使用者也可以轻松利用spark进行分布式存储和运算，其中的原理是什么？写一点个人理解，可能不够严谨。 py4j-百度百…

由于特殊需求，需要在一次Spark任务中切换HDFS集群。本文我将介绍如何在一次的spark任务中操作不同的HDFS集群我们以wordcount为例，分析如何配置。我们的输入数据源来自cluster1的HDFS，需要…

RDD的5大特点 1）有一个分片列表，就是能被切分，和Hadoop一样，能够切分的数据才能并行计算。一组分片（partition），即数据集的基本组成单位，对于RDD来说，每个分片都会被一个计算任务处理，并决定并行计算…

combineByKey 官方文档描述： Generic function to combine the elements for each key using a custom set of aggregation f…

引言上一节《TaskScheduler源码与任务提交原理浅析1》介绍了TaskScheduler的创建过程，在这一节中，我将承接《Stage生成和Stage源码浅析》中的submitMissingTasks函数继续介绍…

怪就怪之前之前对spark streaming和structed streaming不熟悉，因为之前的实时计算都在用storm。这两天遇到一个问题，我在公司平台上提交spark streaming任务，测试的时候感觉没…

基本概念 What’s DataFrame A DataFrame is equivalent to a relational table in Spark SQL [1]。 DataFrame的前身是Sch…

// Kylin 与 Spark SQL的差异性 – 惊帆的BLOG http://www.bucry.com/archives/1893.html Kylin在目前成为大数据平台的神兽，其主要的逻辑的是针对…

DataFrame 写入mysql import java.io.FileInputStream import java.sql.{Connection, DriverManager} import java.util.…