背景:Spark由2.0.0升级至2.2.1,导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错 期望:将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1 解决: 旧版用法 s…
分类:Spark
Spark kyro Serialization
序列化在分布式系统中扮演着重要的角色,优化Spark程序时,首当其冲的就是对序列化方式的优化。Spark为使用者提供两种序列化方式: Java Serialization: 默认的序列化方式。 Kryo Serializ…
Spark之RDD算子-行动算子
在Spark中转换算子并不会马上进行运算的,即所谓的“惰性运算”,而是在遇到行动算子时才会执行相应的语句的,触发Spark的任务调度开始进行计算。 Action-RDD 在这里我们可以将Spark中的行动算子分为两类: …
Spark单机环境搭建(Ubuntu)
1:准备环境 1:JDK1.8 2:Scala2.12.4 3:spark-2.2.0-bin-hadoop2.7.tgz预编译包 JDK1.8下载地址 Scala2.12.4下载地址 spark-2.2.0-bin-h…
Spark Streaming 1.6 流式状态管理分析
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。 关于状态管理 在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Dur…
Spark Streaming + Kafka +Hbase项目实战
同学们在学习Spark Steaming的过程中,可能缺乏一个练手的项目,这次通过一个有实际背景的小项目,把学过的Spark Steaming、Hbase、Kafka都串起来。 1.项目介绍 1.1 项目流程 Spark…
SPARK[RDD之转换函数]
前面讲到了RDD的分区、RDD的创建,这节将讲解RDD的转换,RDD的转换就是从父RDD生成一个新的RDD,新的RDD分区可能和父RDD一致也可能不再一致。 常用的转换函数: map map是对每个元素进行转换,生成新的…
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。 输入可能以多个文件的形式存储在HDFS上,每个Fil…
Spark Windows 本地模式(LOCAL)搭建指南
本文将介绍spark在windows下本地模式的搭建 Spark的运行模式基本可以分为两种: 本地模式 即Driver程序只在本机运行 集群模式 即Dirver程序会在集群中运行,具体到集群模式,又可以分为spark集群…
Spark的fold()和aggregate()函数
转载请注明出处:http://www.jianshu.com/p/15739e95a46e @贰拾贰画生 最近在学习spark,理解这两个函数时候费了一些劲,现在记录一下。 1. rdd.fold(value)(func…
Jupyter与Spark开发环境配置指南
Jupyter与Spark开发环境配置指南 什么是Spark? Spark是使用大量数据进行计算的框架。为什么需要Spark?比如,一个易于读入内存的小型数据集,Gb级的,你可能会使用Pandas,R或其他工具加载整个数…
[SPARK-19680] OffsetOutOfRangeException 解决方案
当kafka中的数据丢失时,Spark程序消费kafka中数据的时候就可能会出现以下异常: Lost task 12.0 in stage 398.0 (TID 2311, localhost, executor dri…