分类：Spark

spark应用开发-streaming&kafka

之前一段时间通过SparkStreaming+Kafka处理上网日志数据的一些记录，做个备忘。 KafkaUtils.createDirectStream or KafkaUtils.createStream creat…

前言上篇写了 Spark Shuffle 内存分析后,有不少人提出了疑问，大家也对如何落文件挺感兴趣的，所以这篇文章会详细介绍，Sort Based Shuffle Write 阶段是如何进行落磁盘的流程分析入口…

Spark job 我们都知道，spark的执行是lazy的，也就是spark的函数分为两类: Transform和action. 只有在使用action函数时，才会触发一个spark job. 串行的Spark job…

为了Spark Streaming应用能在生产中稳定、有效的执行，每批次数据处理时间（批处理时间）必须非常接近批次调度的时间…

大数据学习交流微信群 Spark 采用Lineage（书里叫血统）和CheckPoint（检查点）两种方式来解决分布式数据集中的容错问题。Lineage本质上类似于数据库的重做日志（redo log），只不过这个日志粒度…

起因：部门准备将数据仓库开发工具从Hive SQL大规模迁移至Spark SQL。此前集群已经自带了Spark-1.5.2，系HDP-2.3.4自带的Spark组件，现在需要将之升级到目前的最新版本（2.2.1）。作为一…

一般在开发spark程序的时候，都需要创建一些数据作为临时表来使用，在实际生产中使用HiveSQL直接获取数据，因为在开发阶段都是在单机上，无法连接Hive，所以必须使用临时表代替，需要在服务器上部署的时候将SQLCon…

ACL Management for Spark SQL Three primary modes for Spark SQL authorization are available with spark-authoriz…

前言这个算是Spark Streaming 接收数据相关的第三篇文章了。前面两篇是： Spark Streaming 数据产生与导入相关的内存分析 Spark Streaming 数据接收优化 Spark Strea…

Spark 1.6单机环境的安装准备 Spark官网文档描述的是： Spark runs on Java 7+, Python 2.6+/3.4+ a…

主要想回答两个问题： map端(shuffle-write)如何对数据进行分片? reduce端(shuffle-read)如何读取数据？ ShuffleMapTask中，指定此task运算真对上游RDD的那个parti…

循序渐进学Saprk 与Hadoop相比，Spark最初为提升性能而诞生。Spark是Hadoop MapReduce的演化和改进，并兼容了一些数据库的基本思想，可以说，Spark一开始就站在Hadoop与数据库这两个巨…