分类：Spark

[第二章] spark-yarn原理分析

在上一篇文章里我们主要是分析了spark standlane内核的执行原理，本节主要是对spark在yarn上的执行原理进行分析。 spark在yarn上执行分两种： 1：spark yarn-cluster 2：spa…

reduceByKey 官方文档描述： Merge the values for each key using an associative reduce function. This will also perform…

1. spark提交后一直循环accepted spark on yarn提交任务时一直显示ACCEPTED，过一个小时后就会出现任务失败，但在提交时shell终端显示的日志并没有报错，logs文件夹中也没有日志产生。注…

/** Return a new RDD by first applying a function to all elements of this RDD, and then flattening the results…

一、问题对实时流量日志过滤筛选商户流量，对每个商户的流量进行累计，统计商户实时累计流量。当时间超过24时时，重新统计当日商户的实时累计流量。二、实现步骤 1、采用Spark Streaming读取Kafka中的实时…

翻译： https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_running_spark_apps.html 版本： 5.14.2 …

Spark-Sql的参数调优：官网： http://spark.apache.org/docs/latest/sql-programming-guide.html 缓存表参考：https://blog.csdn.ne…

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计…

一、避免null的使用大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”，在Java，它是null。在Java 里，null 是一个关键字，不是一个对象，所以对它调用任何方法都是非法的。但是这对语言设计…

在Spark Streaming中，job不断的产生，有时候会产生一些空RDD，而基于这些空RDD生成的job大多数情况下是没必要提交到集群执行的。执行没有结果的job，就是浪费计算资源，数据库连接资源，产生空文件等。 …

在Spark中，自定义函数可以分为两种： UDF(User-Defined-Function)，即最基本的自定义函数。类似 lit、sqrt之类的函数，数对每一条数据处理。输入和输出是一对一的关系。 UDAF（User-…

Spark集群硬件配置参考标签（空格分隔）： Spark Hardware Provisioning A common question received by Spark developers is how to c…