分类：Spark

【译】Spark官方文档——Spark Configuration（Spark配置）

注重版权，尊重他人劳动转帖注明原文地址：http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统：环境变量：用来启动Spark…

今天在测试spark-sql运行在yarn上的过程中，无意间从日志中发现了一个问题： spark-sql --master yarn 14/12/29 15:23:17 INFO Client: Requesting a…

1、spark是什么？ Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算相比于MapReduce基于IO计算，提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性与map…

1 Overview 这一块代码可以理解为 Spark 是如何实现一个基于 K8S 的调度器，来调度生成 Executor Pod 的。 2 分析 /path/to/spark/resource-managers/kub…

Spark自定义聚合函数UDAF的现成例子不多，我只找到两个比较有用的： Spark: Custom UDAF Example Apache Spark UserDefinedAggregateFunction comb…

分布式计算平台=分布式文件系统+分布式计算模型，我们通常讲的hadoop一般是指分布式计算平台的统称，分布式计算平台（hadoop）=分布式文件系统（HDFS）+分布式计算模型（MapReduce） Spark=分布式…

决策树算法介绍：决策树以及其集成算法是机器学习分类和回归问题中非常流行的算法。因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。树集成算法如随机森林以及boosting算法几乎是解决分类…

网上提交 scala spark 任务的攻略非常多，官方文档其实也非常详细仔细的介绍了 spark-submit 的用法。但是对于 python 的提交提及得非常少，能查阅到的资料非常少导致是有非常多的坑需…

# Task提交流程在划分Stage之后,在对Task进行封装成为TaskSet然后提交给TaskScheduler。 Spark带注释源码对于整个Spark源码分析系列，我将带有注释的Spark源码和分析的文件放在…

　　Spark 是一种与 Hadoop 相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态系统，主要应用场景如下：　　1. Spark是基于内存的迭代计算框架，适…

本章节根据源代码分析Spark Structured Streaming(Spark2.4)在进行DataSourceProvider查找的流程，首先，我们看下读取流数据源kafka的代码： SparkSession s…

http://spark.apache.org/docs/1.6.1/tuning.html1) 代码优化 a. 对于多次使用的RDD，进行数据持久化操作(eg: cache、persist) b. 如果对同一个份数据进…