之前一段时间通过SparkStreaming+Kafka处理上网日志数据的一些记录,做个备忘。 KafkaUtils.createDirectStream or KafkaUtils.createStream creat…
分类:Spark
Spark Shuffle Write阶段磁盘文件分析
前言 上篇写了 Spark Shuffle 内存分析 后,有不少人提出了疑问,大家也对如何落文件挺感兴趣的,所以这篇文章会详细介绍,Sort Based Shuffle Write 阶段是如何进行落磁盘的 流程分析 入口…
Spark Streaming并发提交job
Spark job 我们都知道,spark的执行是lazy的,也就是spark的函数分为两类: Transform和action. 只有在使用action函数时,才会触发一个spark job. 串行的Spark job…
开启Back Pressure使生产环境的Spark Streaming应用更稳定、有效
为了Spark Streaming应用能在生产中稳定、有效的执行,每批次数据处理时间(批处理时间)必须非常接近批次调度的时间…
Java Spark 简单示例(九) CheckPoint 检查点使用
大数据学习交流微信群 Spark 采用Lineage(书里叫血统)和CheckPoint(检查点)两种方式来解决分布式数据集中的容错问题。Lineage本质上类似于数据库的重做日志(redo log),只不过这个日志粒度…
Spark版本升级二三事
起因:部门准备将数据仓库开发工具从Hive SQL大规模迁移至Spark SQL。此前集群已经自带了Spark-1.5.2,系HDP-2.3.4自带的Spark组件,现在需要将之升级到目前的最新版本(2.2.1)。作为一…
Spark_SQL-创建临时表
一般在开发spark程序的时候,都需要创建一些数据作为临时表来使用,在实际生产中使用HiveSQL直接获取数据,因为在开发阶段都是在单机上,无法连接Hive,所以必须使用临时表代替,需要在服务器上部署的时候将SQLCon…
ACL Management for Spark SQL
ACL Management for Spark SQL Three primary modes for Spark SQL authorization are available with spark-authoriz…
Spark Streaming Direct Approach (No Receivers) 分析
前言 这个算是Spark Streaming 接收数据相关的第三篇文章了。 前面两篇是: Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 Spark Strea…
Spark 1.6.0 单机安装配置
Spark 1.6单机环境的安装准备 Spark官网文档描述的是: Spark runs on Java 7+, Python 2.6+/3.4+ a…
Spark shuffle-write 和 shuffle-read 中对数据倾斜情况的处理
主要想回答两个问题: map端(shuffle-write)如何对数据进行分片? reduce端(shuffle-read)如何读取数据? ShuffleMapTask中,指定此task运算真对上游RDD的那个parti…
2.0Spark编程模型
循序渐进学Saprk 与Hadoop相比,Spark最初为提升性能而诞生。Spark是Hadoop MapReduce的演化和改进,并兼容了一些数据库的基本思想,可以说,Spark一开始就站在Hadoop与数据库这两个巨…