Spark学习

第一周 Spark生态系统概述与编程模型

  • Spark生态系统概述
  • 回顾Hadoop MapReduce
  • Spark运行模式
  • RDD
  • Spark运行时模型简介
  • 缓存策略介绍
  • transformation
  • action
  • lineage
  • 容错处理
  • 宽依赖与窄依赖
  • 集群配置

第二周 深入Spark内核

  • Spark术语解释
  • 集群概览
  • 核心组件
  • 数据本地性
  • 常用RDD
  • 任务调度
  • DAGScheduler
  • TaskScheduler
  • Task细节
  • 广播变量
  • 累加器
  • 性能调优

第三周 Spark on Yarn & Spark as a service

  • Spark on Yarn原理
  • Spark on Yarn实践
  • JobServer架构
  • JobServer API介绍
  • JobServer配置与部署

第四周 Spark Streaming原理与实践

  • DStream
  • 数据源
  • 无状态transformation与有状态transformation
  • checkpoint
  • 容错
  • 性能优化

第五周 Shark与Spark SQL

  • Shark数据模型
  • Shark数据类型
  • Shark架构
  • Shark部署
  • 缓存(分区)表
  • SharkServer
  • Shark与Spark结合
  • Spark SQL架构
  • Parquet支持
  • DSL
  • SQL on RDD
  • Hive支持
  • UDF
  • JDBC Server

第六周 Machine Learning on Spark

  • LinearRegression
  • K-Means
  • Collaborative Filtering

第七周 Spark多语言编程

  • Python简介
  • PySpark API
  • 使用Python编写Spark程序
  • Spark with Java

第八周 图计算GraphX

  • 现存的图计算框架
  • Table Operators
  • Graph Operators
  • GraphX设计

第九周 Tachyon原理与实践

  • Tachyon原理与架构
  • Tachyon实践

第十周 SparkR

  • SparkR原理介绍
  • 安装配置与运行
    原文作者:望京老司机
    原文地址: https://www.jianshu.com/p/c64e48cb841f
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞