全面深度剖析Spark2–知识点,源码,调优,JVM,图计算,项目 课程观看地址:http://www.xuetuwuyou.com/course/220 课程出自学途无忧网:http://www.xuetu…
分类:Spark
spark on yarn源码解析
本文章,原创 若泽数据 ,禁止所有阅读,转载,分享及评论 spark on yarn 执行流程前置 构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(…
spark使用广播变量
import java.io.{File, FileReader} import java.util import org.apache.spark.SparkConf import org.apache.spark.b…
Spark-RDD-countByValue
rdd.countByValue dfNotNull.map(_.getAs[String]("allSixId")).filter(_.startsWith("advertising_id_s")).countByVa…
Spark Streaming提高写数据库的效率
1. 前言 这是一篇挂羊头卖狗肉的文章,事实上,本文要描述的内容,和Spark Streaming没有什么关系。 在上一篇文章http://www.jianshu.com/p/a73c0c95d2fe 我们写了如何通过S…
[spark streaming] DStream 和 DStreamGraph 解析
看 spark streaming 源码解析之前最好先了解spark core的内容。 前言 Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。 在Spark Stre…
流式计算概述和Spark Streaming tips
流式计算概述 常规计算引擎分类 批处理 • 高吞吐,低延迟 • 面向静态数据集合的处理 • 分钟甚至小时级别延迟 • 比如MR, Spark 流式计算 • 面向行级别数据处理 • 毫秒级延迟 • 比如storm 流式计算…
spark写数据到mysql第二弹
需求 分析的中间数据, 很多需要持久化到关系型数据库, 以便后续的二次分析, 在官方给出insert指定字段的接口之前我先实现自己的方法吧。 背景 之前有一篇文章 spark SQL操作之关系型数据库 简单讲解…
Structured Spark Streaming - explode 多列
package ohmysummer import ohmysummer.model.SourceCan import ohmysummer.pipeline.kafka.WmKafkaDeserializer impo…
Spark消息总线实现
消息总线概述 消息总线是Spark内部进行消息传递,触发事件的框架,消息总线的核心是由三个抽象的对象组成: Event: 定义了一个事件; Listener:定义了一个监听器,是用于对Event作出响应的实体; Bus:…
spark提交参数解析
上一节学习了Spark源码的编译方法,这一节我们跟踪一下spark-shell的启动. spark-shell是spark提供一个控制台,通过它我们可以方便的学习spark的API,类似于Scala的REPL. spar…
# 数据分析最佳实践 - spark Dataset/DataFrame数据存取及处理
0x01前言 官网上的spark with scala 的文档比较难理解,内容也特别少。初学遇到很多实际情况,会很迷茫怎么处理数据。 在此把自己踩的坑列一列,供初学者参考。 大牛请轻拍,有问题欢迎指教。 0x02 理解 …