分类：Spark

Spark之abort stage

NOTE：本文要求读者对spark的运行原理有基本的了解。需要明确的一点是，abort不同于fail。如果一个stage fail了，那么它还有可能被resubmit，然后重新执行。而如果一个stage abort了，…

一、前言目前 Apache Spark 支持三种分布式部署方式，分别是： standalone spark on mesos spark on YARN 其中，第一种类似于MapReduce 1.0所采用的模式，内部实…

Spark Streaming程序的停止可以是强制停止、异常停止或其他方式停止。首先我们看StreamingContext的stop()方法 def stop( stopSparkContext: Boolean = …

原理 Spark on YARN的原理就是依靠yarn来调度Spark，比默认的Spark运行模式性能要好的多，前提是首先部署好hadoop HDFS并且运行在yarn上，然后就可以开始部署spark on yarn了，…

读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…

摘要：iForest用于挖掘异常数据，如网络安全中的攻击检测和流量异常分析，金融机构则用于挖掘出欺诈行为。算法对内存要求很低，且处理速度很快，其时间复杂度也是线性的。可以很好的处理高维数据和大数据，并且也可以作为在线异常…

程序中可能会使用到spark提供的累加器功能，可是如果你不了解它的运行机制，有时候会带来一些负面作用（错误的累加结果）。下文会介绍产生错误结果的原因，并提供一种解决办法。新博客地址 Accumulator简介 Acc…

RDD是什么 RDD（Resilient Distributed Datasets）可扩展的弹性分布式数据集，rdd是spark最基本的数据抽象，是整个spark生态的基石。rdd表示一个只读、分区且不变的数据集合。一个…

最近研究了一下时间序列预测的使用，网上找了大部分的资源，都是使用python来实现的，使用python来实现虽然能满足大部分的需求，但是python有一点缺点按就是只能使用一台计算资源进行计算，如果数据量大的时候，就有可…

概览拿到系统后，部署系统是第一件事，那么系统部署成功以后，各个节点都启动了哪些服务？部署图 Spark部署图从部署图中可以看到整个集群分为 Master 节点和 Worker 节点，相当于 Hadoop 的 Ma…

文档地址 http://mashibing.com/wiki/Spark 上传文件解压 #cd training #tar -xvf spark-2.1.0-bin-hadoop2.7.tgz # rm -rf spa…

背景介绍遇到一个需求，用 Spark SQL 查询每个分组的前 top n 个数据。由于一开始不知道 Spark SQL 有 row_number() 这么个东西，使得用普通的 SQL 语句把我想破了头也没写出来。三…