大数据核心开发技术 – 内存计算框架Spark精讲Spark是UC Berkeley AMP lab所开源的类Hadoop
MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集,除
了能够提供交互式查询外,它还可以优化迭代工作负载。Spark Streaming:
构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断
(几秒),以类似batch批量处理的方式来处理这小部分数据
1)Spark 初识入门
2)Spark 概述、生态系统、与MapReduce比较
3)Spark 编译、安装部署(Standalone Mode)及测试
4)Spark应用提交工具(spark-submit,spark-shell)
5)Scala基本知识讲解(变量,类,高阶函数)
6)Spark 核心RDD
7)RDD特性、常见操作、缓存策略
8)RDD Dependency、Stage常、源码分析
9)Spark 核心组件概述10)案例分析
11)Spark 高阶应用
12)Spark on YARN运行原理、运行模式及测试
13)Spark HistoryServer历史应用监控
14)Spark Streaming流式计算
15)Spark Streaming 原理、DStream设计
16)Spark Streaming 常见input、out
17)Spark Streaming 与Kafka集成
18)使用Spark对进行分析