1、背景 有需要的可以联系我2317384986 yxxy1717 ① Application Properties 应用基本属性 spark.driver.cores &…
分类:Spark
spark概念理解
1. Application:Spark 的应用程序,用户提交后,Spark为App分配资源,将程序转换并执行,其中Application包含一个Driver program和若干Executor 2. SparkCon…
spark streaming的流计算
sparkstreaming的流计算有几种 1,时间段计算,每个时间段统计一次,所有的数据都是这个时间段内的数据 这里会用到receiver,在executor中启动一个线程,接收数据,把数据本份到本地. 如果调试程序需…
spark读取oracle数据调优
使用spark自带的上下界限来分区的不均匀性导致传输慢(木桶效应): scala> a.split("\\n").map(x=>x.toInt) res25: Array[Int] = Array(12344…
Spark入门(Python)--1.1 RDD基础
该系列spark学习笔记基于Python Spark. RDD(弹性分布式数据集)是一个不可变的分布式对象集合,可以包含Python、Java、Scala中任意类型的对象,和用户自己定义的对象。 创建RDD有两种方式:1…
Myriad的简单原理与安装
1. 先说一下Myriad的简单原理 Myriad存在的意义是Mesos和Yarn的共存,Mesos和Yarn都作为资源管理框架去管理整个集群的资源,正所谓一山不容二虎,它们俩共存必须有一个中间调和者,这时Myriad就…
==Spark快速入门
Spark快速入门 | Ji ZHANG’s Blog http://shzhangji.com/blog/2014/12/16/spark-quick-start/ sc.textFile()用于生成一个R…
22 14. 一次 Spark SQL 性能提升10倍的经历
『 Spark 』14. 一次 Spark SQL 性能提升10倍的经历 – 推酷 http://www.tuicool.com/articles/r2qA7vm 『 Spark 』14. 一次 Spark …
01 从spark-submit说起
使用spark-submit命令来提交Spark程序 spark-submit: # 1-- 检查是否存在SPARK_HOME环境变量 # 如没有则条用当前命令下的find-spark-home脚本查找和加载相关的环境变…
Window滑动窗口
Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一…
spark RDD常用函数/操作
spark RDD常用函数/操作 文中的代码均可以在spark-shell中运行。 transformations map(func) 集合内的每个元素通过function映射为新元素 val a = Array(1,2…
Spark executor中task的数量与最大并发数
关于executor和task的概念可以参考官方文档 本文使用的源码是spark 2.0.0版本 Task的数量 根据类DAGScheduler中的submitMissingTasks方法可以知道,在stage中会为每个…