NOTE:本文要求读者对spark的运行原理有基本的了解。 需要明确的一点是,abort不同于fail。如果一个stage fail了,那么它还有可能被resubmit,然后重新执行。而如果一个stage abort了,…
分类:Spark
【Spark】Ubuntu16.04 spark 集群安装 (standalone模式)
一、前言 目前 Apache Spark 支持三种分布式部署方式,分别是: standalone spark on mesos spark on YARN 其中,第一种类似于MapReduce 1.0所采用的模式,内部实…
18 Spark Streaming程序的优雅停止
Spark Streaming程序的停止可以是强制停止、异常停止或其他方式停止。 首先我们看StreamingContext的stop()方法 def stop( stopSparkContext: Boolean = …
spark on yarn 搭建
原理 Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on yarn了,…
Spark:读取mysql数据作为DataFrame
读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…
0x14 异常挖掘,Isolation Forest
摘要:iForest用于挖掘异常数据,如网络安全中的攻击检测和流量异常分析,金融机构则用于挖掘出欺诈行为。算法对内存要求很低,且处理速度很快,其时间复杂度也是线性的。可以很好的处理高维数据和大数据,并且也可以作为在线异常…
Spark累加器(Accumulator)陷阱及解决办法
程序中可能会使用到spark提供的累加器功能,可是如果你不了解它的运行机制,有时候会带来一些负面作用(错误的累加结果)。 下文会介绍产生错误结果的原因,并提供一种解决办法。 新博客地址 Accumulator简介 Acc…
Spark RDD的基本特征以及源码解析
RDD是什么 RDD(Resilient Distributed Datasets)可扩展的弹性分布式数据集,rdd是spark最基本的数据抽象,是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…
基于spark的时间序列预测包Sparkts._的使用
最近研究了一下时间序列预测的使用,网上找了大部分的资源,都是使用python来实现的,使用python来实现虽然能满足大部分的需求,但是python有一点缺点按就是只能使用一台计算资源进行计算,如果数据量大的时候,就有可…
Spark详解01概览|Spark部署|执行原理
概览 拿到系统后,部署系统是第一件事,那么系统部署成功以后,各个节点都启动了哪些服务? 部署图 Spark部署图 从部署图中可以看到 整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Ma…
马士兵spark学习
文档地址 http://mashibing.com/wiki/Spark 上传文件 解压 #cd training #tar -xvf spark-2.1.0-bin-hadoop2.7.tgz # rm -rf spa…
Spark SQL 分组后取 top n 问题的解决方法
背景介绍 遇到一个需求,用 Spark SQL 查询每个分组的前 top n 个数据。由于一开始不知道 Spark SQL 有 row_number() 这么个东西,使得用普通的 SQL 语句把我想破了头也没写出来。 三…