原理 Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on yarn了,…
分类:Spark
【Spark Java API】Transformation(12)—zipPartitions、zip
zipPartitions 官方文档描述: Zip this RDD's partitions with one (or more) RDD(s) and return a new RDD by applying a f…
如何让spark 2.4 支持scala 2.12
在 maven 仓库中我们发现 spark -core 提供scala 2.12 版本的jar包下载,但是官网并没有声明支持2.12,官网是支持2.11 的,但是有时候我们还是需要在spark-submit 上支持 2.…
使用 Spark 读写 HBase 数据
Use Spark to read and write HBase data 启动 hbase start-hbase.sh 在 HBase 中准备 sample 数据 1、运行 HBase shell hbase sh…
StreamingPro 支持类SQL DSL
前言 受spark sql在喜马拉雅的使用之xql 这篇文章影响,我发现类似下面这种语法是极好的: //加载mysql表 load jdbc.`mysql1.tb_v_user` as mysql_tb_user; //…
Spark运行模式
2018/04/07 自己知道的spark运行的四种模式,以一个计算hdfs中某文件(20G大小)的行数为例,这个文件的块集中在node3上。 我的spark集群work是node1-3,master是node1。 (具…
spark 基础知识整理(一)
一.Spark是什么? Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所…
spark sql 调试技巧--内置udf查看
spark sql 调试技巧–内置udf查看 Spark SQL内置了许多常用的udf,我们该如何拿到用户的udf和内置的udf呢? DataFrame级别 对于DataFrame级别的udf,我们可以访问f…
Spark-Streaming: 分析tomcat的日志
Spark-Streaming: 分析tomcat的日志 要求统计TOP 100的 IP 通过spark streaming得到(ip, ip_count),按照ip_count倒序100 程序: package io.…
spark入门程序 word count
本文总结了spark中的hello world—word count的开发流程。 spark 支持的开发语言有scala,java, python,下面用java语言进行word count程序开发。java在1.8版本…
Spark 共享变量
通常,当把一个函数传递给Spark的操作时(例如map或reduce操作),函数可以使用在驱动程序中定义的变量,但是函数在不同的节点上执行,每个节点都需要对函数(闭包)内的每个变量进行拷贝发送,而在远程机器上变量的更新不…
Apache 流框架 Flink,Spark Streaming,Storm对比分析(1)
此文已由作者岳猛授权网易云社区发布。 欢迎访问网易云社区,了解更多网易技术产品运营经验。 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提…