在上一篇文章里我们主要是分析了spark standlane内核的执行原理,本节主要是对spark在yarn上的执行原理进行分析。 spark在yarn上执行分两种: 1:spark yarn-cluster 2:spa…
分类:Spark
【Spark Java API】Transformation(11)—reduceByKey、foldByKey
reduceByKey 官方文档描述: Merge the values for each key using an associative reduce function. This will also perform…
Spark on yarn遇到的问题
1. spark提交后一直循环accepted spark on yarn提交任务时一直显示ACCEPTED,过一个小时后就会出现任务失败,但在提交时shell终端显示的日志并没有报错,logs文件夹中也没有日志产生。注…
spark flatMap 使用
/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…
Spark Streaming 实时统计商户当日累计PV流量
一、问题 对实时流量日志过滤筛选商户流量,对每个商户的流量进行累计,统计商户实时累计流量。 当时间超过24时时,重新统计当日商户的实时累计流量。 二、实现步骤 1、采用Spark Streaming读取Kafka中的实时…
CDH 运行Spark 应用程序
翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_running_spark_apps.html 版本: 5.14.2 …
spark -SQL 配置参数
Spark-Sql的参数调优: 官网: http://spark.apache.org/docs/latest/sql-programming-guide.html 缓存表 参考:https://blog.csdn.ne…
Spark大数据分析框架的核心是什么?
Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计…
Spark(八) scala中的Option、Some、None
一、避免null的使用 大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”,在Java,它是null。在Java 里,null 是一个关键字,不是一个对象,所以对它调用任何方法都是非法的。但是这对语言设计…
19 Spark Streaming中空RDD的处理
在Spark Streaming中,job不断的产生,有时候会产生一些空RDD,而基于这些空RDD生成的job大多数情况下是没必要提交到集群执行的。执行没有结果的job,就是浪费计算资源,数据库连接资源,产生空文件等。 …
Spark DataFrame 用户自定义(聚合)函数
在Spark中,自定义函数可以分为两种: UDF(User-Defined-Function),即最基本的自定义函数。类似 lit、sqrt之类的函数,数对每一条数据处理。输入和输出是一对一的关系。 UDAF(User-…
Spark集群硬件配置参考
Spark集群硬件配置参考 标签(空格分隔): Spark Hardware Provisioning A common question received by Spark developers is how to c…