通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在jav…
分类:Spark
(八)map,filter,flatMap算子-Java&Python版Spark
map,filter,flatMap算子 视频教程: 1、优酷 2、YouTube 1、map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的Java…
Flink学习路线
spark开发了好多年,最近在学习flink,分享下最近的学习心得 Flink学习资料 官方文档 https://flink.apache.org/ 官方视频课程 https://github.com/flink-chi…
Spark with K8S
团队的计算平台目前还在用 apache-spark-on-k8s,也就是 2.2 版本的 Spark,2.3 其实已经老早支持原生的 K8S 调度后台支持了。 apache-spark-on-k8s 分支上应该大部分代码…
为Spark Application指定不同的JDK版本
随着企业内部业务系统越来越多,基于JVM的服务,通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现:java.lang.UnsupportedClass…
Spark RDD 编程指南中文版(二)
接上一章 曾革:Spark RDD 编程指南中文版(一)继续翻译 Spark 的官方英文文档。 你可以点击这个链接查看所有已翻译的内容: 曾革:Spark 中文文档目录汇总 RDD Operations RDDs 支持两…
hadoop组件---spark理论----spark on k8s模式的三种方式全面了解
我们在之前的文章中 已经了解了 spark支持的模式,其中一种就是 使用k8s进行管理。 hadoop组件—spark—-全面了解spark以及与hadoop的区别 是时候考虑让你的 Spark 跑在K8s …
Spark:读取mysql数据作为DataFrame
读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…
spark2.1注册内部函数spark.udf.register("xx", xxx _),运行时抛出异常:Task not serializable
函数代码: class MySparkJob{ def entry(spark:SparkSession):Unit={ def getInnerRsrp(outer_rsrp: Double, wear_loss: D…
Spark 1.x 爆内存相关问题汇总及解
Spark 1.x 爆内存相关问题汇总及解决 OOM # 包括GC Overhead limitjava.lang.OutOfMemoryError # on yarn org.apache.hadoop.…
Spark Core读取ES的分区问题分析
写这篇文章的原因是前两天星球球友去面试,面试管问了一下,Spark 分析ES的数据,生成的RDD分区数跟什么有关系呢? 稍微猜测一下就能想到跟分片数有关,但是具体是什么关系呢? 可想的具体关系可能是以下两种: 1).就像…
Spark实战(二)学习UDF
在开始正式数据处理之前,我觉得有必要去学习理解下UDF。 UDF UDF全称User-Defined Functions,用户自定义函数,是Spark SQL的一项功能,用于定义新的基于列的函数,这些函数扩展了Spark…