分类：Spark

Spark加载PMML进行预测

背景：Spark由2.0.0升级至2.2.1，导致之前同事写的Spark加载PMML的工具jar在调度上跑作业出错期望：将Spark2.0.0版加载PMML工具jar升级到支持Spark2.2.1 解决：旧版用法 s…

序列化在分布式系统中扮演着重要的角色，优化Spark程序时，首当其冲的就是对序列化方式的优化。Spark为使用者提供两种序列化方式： Java Serialization: 默认的序列化方式。 Kryo Serializ…

在Spark中转换算子并不会马上进行运算的，即所谓的“惰性运算”，而是在遇到行动算子时才会执行相应的语句的，触发Spark的任务调度开始进行计算。 Action-RDD 在这里我们可以将Spark中的行动算子分为两类： …

1：准备环境 1：JDK1.8 2：Scala2.12.4 3：spark-2.2.0-bin-hadoop2.7.tgz预编译包 JDK1.8下载地址 Scala2.12.4下载地址 spark-2.2.0-bin-h…

Spark 1.6发布后，官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。关于状态管理在流式计算中，数据是持续不断来的，有时候我们要对一些数据做跨周期(Dur…

同学们在学习Spark Steaming的过程中，可能缺乏一个练手的项目，这次通过一个有实际背景的小项目，把学过的Spark Steaming、Hbase、Kafka都串起来。 1.项目介绍 1.1 项目流程 Spark…

前面讲到了RDD的分区、RDD的创建，这节将讲解RDD的转换，RDD的转换就是从父RDD生成一个新的RDD，新的RDD分区可能和父RDD一致也可能不再一致。常用的转换函数: map map是对每个元素进行转换，生成新的…

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个Fil…

本文将介绍spark在windows下本地模式的搭建 Spark的运行模式基本可以分为两种：本地模式即Driver程序只在本机运行集群模式即Dirver程序会在集群中运行，具体到集群模式，又可以分为spark集群…

转载请注明出处：http://www.jianshu.com/p/15739e95a46e @贰拾贰画生最近在学习spark，理解这两个函数时候费了一些劲，现在记录一下。 1. rdd.fold(value)(func…

Jupyter与Spark开发环境配置指南什么是Spark？ Spark是使用大量数据进行计算的框架。为什么需要Spark？比如，一个易于读入内存的小型数据集，Gb级的，你可能会使用Pandas，R或其他工具加载整个数…

当kafka中的数据丢失时，Spark程序消费kafka中数据的时候就可能会出现以下异常： Lost task 12.0 in stage 398.0 (TID 2311, localhost, executor dri…