第一周 Spark生态系统概述与编程模型
- Spark生态系统概述
- 回顾Hadoop MapReduce
- Spark运行模式
- RDD
- Spark运行时模型简介
- 缓存策略介绍
- transformation
- action
- lineage
- 容错处理
- 宽依赖与窄依赖
- 集群配置
第二周 深入Spark内核
- Spark术语解释
- 集群概览
- 核心组件
- 数据本地性
- 常用RDD
- 任务调度
- DAGScheduler
- TaskScheduler
- Task细节
- 广播变量
- 累加器
- 性能调优
第三周 Spark on Yarn & Spark as a service
- Spark on Yarn原理
- Spark on Yarn实践
- JobServer架构
- JobServer API介绍
- JobServer配置与部署
第四周 Spark Streaming原理与实践
- DStream
- 数据源
- 无状态transformation与有状态transformation
- checkpoint
- 容错
- 性能优化
第五周 Shark与Spark SQL
- Shark数据模型
- Shark数据类型
- Shark架构
- Shark部署
- 缓存(分区)表
- SharkServer
- Shark与Spark结合
- Spark SQL架构
- Parquet支持
- DSL
- SQL on RDD
- Hive支持
- UDF
- JDBC Server
第六周 Machine Learning on Spark
- LinearRegression
- K-Means
- Collaborative Filtering
第七周 Spark多语言编程
- Python简介
- PySpark API
- 使用Python编写Spark程序
- Spark with Java
第八周 图计算GraphX
- 现存的图计算框架
- Table Operators
- Graph Operators
- GraphX设计
第九周 Tachyon原理与实践
第十周 SparkR