分类：Spark

spark on yarn 搭建

原理 Spark on YARN的原理就是依靠yarn来调度Spark，比默认的Spark运行模式性能要好的多，前提是首先部署好hadoop HDFS并且运行在yarn上，然后就可以开始部署spark on yarn了，…

zipPartitions 官方文档描述： Zip this RDD's partitions with one (or more) RDD(s) and return a new RDD by applying a f…

在 maven 仓库中我们发现 spark -core 提供scala 2.12 版本的jar包下载，但是官网并没有声明支持2.12，官网是支持2.11 的，但是有时候我们还是需要在spark-submit 上支持 2.…

Use Spark to read and write HBase data 启动 hbase start-hbase.sh 在 HBase 中准备 sample 数据 1、运行 HBase shell hbase sh…

前言受spark sql在喜马拉雅的使用之xql 这篇文章影响，我发现类似下面这种语法是极好的： //加载mysql表 load jdbc.`mysql1.tb_v_user` as mysql_tb_user; //…

2018/04/07 自己知道的spark运行的四种模式，以一个计算hdfs中某文件（20G大小）的行数为例，这个文件的块集中在node3上。我的spark集群work是node1-3，master是node1。（具…

一.Spark是什么? Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所…

spark sql 调试技巧–内置udf查看 Spark SQL内置了许多常用的udf，我们该如何拿到用户的udf和内置的udf呢？ DataFrame级别对于DataFrame级别的udf，我们可以访问f…

Spark-Streaming: 分析tomcat的日志要求统计TOP 100的 IP 通过spark streaming得到(ip, ip_count)，按照ip_count倒序100 程序： package io.…

本文总结了spark中的hello world—word count的开发流程。 spark 支持的开发语言有scala，java， python，下面用java语言进行word count程序开发。java在1.8版本…

通常，当把一个函数传递给Spark的操作时（例如map或reduce操作），函数可以使用在驱动程序中定义的变量，但是函数在不同的节点上执行，每个节点都需要对函数（闭包）内的每个变量进行拷贝发送，而在远程机器上变量的更新不…

此文已由作者岳猛授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验。 1.Flink架构及特性分析 Flink是个相当早的项目，开始于2008年，但只在最近才得到注意。Flink是原生的流处理系统，提…