背景:测试环境运行一个SparkStreaming任务,yarn-cluster模式,duration为5分钟一个批次,每个批次平均2000w条records,并行度为60 资源配置为: ${SPARK_HOME}/bi…
标签:spark
【Spark】---- 在Linux集群上安装和配置Spark
1 安装JDK 1) 进入JDK官网 2) 下载JDK安装包 3)配置环境变量,在/etc/profile增加以下代码 JAVA_HOME=/home/hadoop/jdk1.6.0_38 PATH=$JA…
spark--环境搭建--3.Hive0.13搭建
在spark1上操作 1. 安装hive $ cd /usr/local/ $ tar -zxvf apache-hive-0.13.1-bin.tar.gz $ mv apache-hive-0.13.1-bin hi…
Spark之abort stage
NOTE:本文要求读者对spark的运行原理有基本的了解。 需要明确的一点是,abort不同于fail。如果一个stage fail了,那么它还有可能被resubmit,然后重新执行。而如果一个stage abort了,…
java-spark的各种常用算子的写法
通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在jav…
(八)map,filter,flatMap算子-Java&Python版Spark
map,filter,flatMap算子 视频教程: 1、优酷 2、YouTube 1、map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的Java…
Flink学习路线
spark开发了好多年,最近在学习flink,分享下最近的学习心得 Flink学习资料 官方文档 https://flink.apache.org/ 官方视频课程 https://github.com/flink-chi…
Spark with K8S
团队的计算平台目前还在用 apache-spark-on-k8s,也就是 2.2 版本的 Spark,2.3 其实已经老早支持原生的 K8S 调度后台支持了。 apache-spark-on-k8s 分支上应该大部分代码…
为Spark Application指定不同的JDK版本
随着企业内部业务系统越来越多,基于JVM的服务,通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现:java.lang.UnsupportedClass…
Spark RDD 编程指南中文版(二)
接上一章 曾革:Spark RDD 编程指南中文版(一)继续翻译 Spark 的官方英文文档。 你可以点击这个链接查看所有已翻译的内容: 曾革:Spark 中文文档目录汇总 RDD Operations RDDs 支持两…
hadoop组件---spark理论----spark on k8s模式的三种方式全面了解
我们在之前的文章中 已经了解了 spark支持的模式,其中一种就是 使用k8s进行管理。 hadoop组件—spark—-全面了解spark以及与hadoop的区别 是时候考虑让你的 Spark 跑在K8s …
Spark:读取mysql数据作为DataFrame
读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…