标签：spark

Spark推测执行解决SparkStreaming任务task卡死问题

背景：测试环境运行一个SparkStreaming任务，yarn-cluster模式，duration为5分钟一个批次，每个批次平均2000w条records，并行度为60 资源配置为： ${SPARK_HOME}/bi…

1 安装JDK 1）进入JDK官网 2）下载JDK安装包 3）配置环境变量，在/etc/profile增加以下代码 JAVA_HOME=/home/hadoop/jdk1.6.0_38 PATH=$JA…

在spark1上操作 1. 安装hive $ cd /usr/local/ $ tar -zxvf apache-hive-0.13.1-bin.tar.gz $ mv apache-hive-0.13.1-bin hi…

NOTE：本文要求读者对spark的运行原理有基本的了解。需要明确的一点是，abort不同于fail。如果一个stage fail了，那么它还有可能被resubmit，然后重新执行。而如果一个stage abort了，…

通常写spark的程序用scala比较方便，毕竟spark的源码就是用scala写的。然而，目前java开发者特别多，尤其进行数据对接、上线服务的时候，这时候，就需要掌握一些spark在jav…

map，filter，flatMap算子视频教程： 1、优酷 2、YouTube 1、map map是将源JavaRDD的一个一个元素的传入call方法，并经过算法后一个一个的返回从而生成一个新的Java…

spark开发了好多年，最近在学习flink，分享下最近的学习心得 Flink学习资料官方文档 https://flink.apache.org/ 官方视频课程 https://github.com/flink-chi…

团队的计算平台目前还在用 apache-spark-on-k8s，也就是 2.2 版本的 Spark，2.3 其实已经老早支持原生的 K8S 调度后台支持了。 apache-spark-on-k8s 分支上应该大部分代码…

随着企业内部业务系统越来越多，基于JVM的服务，通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现：java.lang.UnsupportedClass…

接上一章曾革：Spark RDD 编程指南中文版（一）继续翻译 Spark 的官方英文文档。你可以点击这个链接查看所有已翻译的内容：曾革：Spark 中文文档目录汇总 RDD Operations RDDs 支持两…

我们在之前的文章中已经了解了 spark支持的模式，其中一种就是使用k8s进行管理。 hadoop组件—spark—-全面了解spark以及与hadoop的区别是时候考虑让你的 Spark 跑在K8s …

读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…