Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parq…
标签:spark
Spark Streaming 误用.transform(func)函数导致的问题解析
Spark/Spark Streaming transform 是一个很强的方法,不过使用过程中可能也有一些值得注意的问题。在分析的问题,我们还会顺带讨论下Spark Streaming 生成job的逻辑,从而让大家知道…
3.1 Spark应用执行机制分析
3.1 Spark应用执行机制分析 下面对Spark Application的基本概念和执行机制进行深入介绍。 3.1.1 Spark应用的基本概念 Spark应用(Application)是用户提交的应用程序。Spar…
PySpark on Yarn的相关依赖的解决方式
问题 Spark on Yarn是将yarn作为ClusterManager的运行模式,Spark会将资源(container)的管理与协调统一交给yarn去处理。 Spark on Yarn分为client/clust…
Phoenix 与Spark整合,完善大数据计算栈
本篇文章主要讲解phoenix与spark做整合,目的是将phoenix做存储,spark做计算层。这样就结合了phoenix查询速度快和spark计算速度快的优点。 在这里将Phoenix的表作为spark的RDD或者…
==Spark系列(九)DAGScheduler工作原理
Spark系列(九)DAGScheduler工作原理 – 会飞的纸盒 – 博客园 http://www.cnblogs.com/jianyuan/p/Spark%E7%B3%BB%E5%88%97…
搭建centos7的开发环境3-Spark安装配置
说起大数据开发,必然就会提到Spark,在这片博文中,我们就介绍一下Spark的安装和配置。 这是Centos7开发环境系列的第三篇,本篇的安装会基于之前的配置进行,有需要的请回复搭建centos7的开发环境1-系统安装…
spark任务提交时绝对路径添加额外配置文件提示找不到路径
spark任务提交,添加额外配置文件时用绝对路径读取不到上传的文件。 /usr/local/spark-2.1.0-bin-hadoop2.7/bin/spark-submit --name str_platform_t…
Spark MLlib机器学习开发指南(2) --基本统计
翻译自官方文档 如有问题,欢迎留言指正,转载请注明出处。 基本统计 目录 相关性 假设检验 相关性 计算两个数据系列之间的相关性是统计学中的常见操作。在spark.ml中,我们灵活的提供了在很多数据系列之间计算成对相关性…
提高spark任务稳定性1 - Blacklist 机制
场景 一个 spark 应用的产生过程: 获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。 往往应用会正常运行一段时间,突然有一天运行失败,或是失败了一次才运行成功。 从开发者的…
基于spark的时间序列预测包Sparkts._的使用
最近研究了一下时间序列预测的使用,网上找了大部分的资源,都是使用python来实现的,使用python来实现虽然能满足大部分的需求,但是python有一点缺点按就是只能使用一台计算资源进行计算,如果数据量大的时候,就有可…
Spark自定义累加器的实现
Spark自定义累加器的实现 Java版本: package com.luoxuehuan.sparkproject.spark; import org.apache.spark.AccumulatorParam; /*…