大数据核心开发技术

2023年1月9日 255次阅读来源: 刘志隆

大数据核心开发技术 – 内存计算框架Spark精讲Spark是UC Berkeley AMP lab所开源的类Hadoop

MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集，除

了能够提供交互式查询外，它还可以优化迭代工作负载。Spark Streaming:

构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断

(几秒)，以类似batch批量处理的方式来处理这小部分数据

1)Spark 初识入门

2)Spark 概述、生态系统、与MapReduce比较

3)Spark 编译、安装部署(Standalone Mode)及测试

4)Spark应用提交工具(spark-submit，spark-shell)

5)Scala基本知识讲解(变量，类，高阶函数)

6)Spark 核心RDD

7)RDD特性、常见操作、缓存策略

8)RDD Dependency、Stage常、源码分析

9)Spark 核心组件概述10)案例分析

11)Spark 高阶应用

12)Spark on YARN运行原理、运行模式及测试

13)Spark HistoryServer历史应用监控

14)Spark Streaming流式计算

15)Spark Streaming 原理、DStream设计

16)Spark Streaming 常见input、out

17)Spark Streaming 与Kafka集成

18)使用Spark对进行分析

    原文作者：刘志隆
    原文地址: https://www.jianshu.com/p/b8f1f3a6815d
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。