标签：spark

spark 学习笔记

Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…

Spark/Spark Streaming transform 是一个很强的方法，不过使用过程中可能也有一些值得注意的问题。在分析的问题，我们还会顺带讨论下Spark Streaming 生成job的逻辑，从而让大家知道…

3.1 Spark应用执行机制分析下面对Spark Application的基本概念和执行机制进行深入介绍。 3.1.1 Spark应用的基本概念 Spark应用（Application）是用户提交的应用程序。Spar…

问题 Spark on Yarn是将yarn作为ClusterManager的运行模式，Spark会将资源（container）的管理与协调统一交给yarn去处理。 Spark on Yarn分为client/clust…

本篇文章主要讲解phoenix与spark做整合，目的是将phoenix做存储，spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。在这里将Phoenix的表作为spark的RDD或者…

Spark系列(九)DAGScheduler工作原理 – 会飞的纸盒 – 博客园 http://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97…

说起大数据开发，必然就会提到Spark，在这片博文中，我们就介绍一下Spark的安装和配置。这是Centos7开发环境系列的第三篇，本篇的安装会基于之前的配置进行，有需要的请回复搭建centos7的开发环境1-系统安装…

spark任务提交，添加额外配置文件时用绝对路径读取不到上传的文件。 /usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_t…

翻译自官方文档如有问题，欢迎留言指正，转载请注明出处。基本统计目录相关性假设检验相关性计算两个数据系列之间的相关性是统计学中的常见操作。在spark.ml中，我们灵活的提供了在很多数据系列之间计算成对相关性…

场景一个 spark 应用的产生过程：获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。往往应用会正常运行一段时间，突然有一天运行失败，或是失败了一次才运行成功。从开发者的…

最近研究了一下时间序列预测的使用，网上找了大部分的资源，都是使用python来实现的，使用python来实现虽然能满足大部分的需求，但是python有一点缺点按就是只能使用一台计算资源进行计算，如果数据量大的时候，就有可…

Spark自定义累加器的实现 Java版本： package com.luoxuehuan.sparkproject.spark; import org.apache.spark.AccumulatorParam; /*…