分类：Spark

【Spark】配置Spark源码阅读环境

Scala构建工具（SBT）的使用 SBT介绍 SBT是Simple Build Tool的简称，如果读者使用过Maven，那么可以简单将SBT看做是Scala世界的Maven，虽然二者各有优劣，但完成的工作基本是类似的…

Welcome to Spark Python API Docs! — PySpark 2.0.1 documentation http://spark.apache.org/docs/latest/api/python…

问题描述运行spark sql on yarn的时候发现yarn client模式跑的好好的程序，换成yarn cluster模式就不正确了，原因是hive-site.xml这文件没有被加载到Driver（也就是这时候…

我们以数据源自kafka为例，进行spark作业调优的分析 1 资源评估网络能力：评估下使用的节点数、网络带宽，与所要处理的数据量，在网络能力上是否匹配。节点直接的网络是否符合预期。计算能力：估算下所拥有的节点的…

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。 …

treeAggregate 官方文档描述： Aggregates the elements of this RDD in a multi-level tree pattern. 函数原型： def treeAggrega…

Spark API 详解/大白话解释之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues – 郭同jet · 静心 …

spark大数据计算框架的原理就是以scala的内存计算为基础,然后将一个大计算量的计算,在spark中叫job,根据宽窄依赖划分成多个stage,每个stage包含多个task,然后把task发送给work上的exec…

本文旨在简析 Spark 读取数据库的一些关键源码 Spark如何读取数据库数据像其他的数据映射框架一样（如hibernate，mybatis等），spark如果想读取数据库数据，也绕不开JDBC链接，毕竟这是代码与数…

package com.everdata.spark; import java.io.IOException; import java.sql.Array; import java.sql.Connection; imp…

DataFrame的概念来自R/Pandas语言，不过R/Pandas只是runs on One Machine，DataFrame是分布式的，接口简单易用。 Threshold: Spark RDD API VS Ma…

最近在项目中遇到二次排序的需求，和平常开发spark的application一样，开始查看API，编码，调试，验证结果。由于之前对spark的API使用过，知道API中的sortByKey()可以自定义排序规则，通过实现…