Spark-深入理解Spark 核心思想和源码分析阅读笔记

第五章 数据处理与执行

5.3 RDD转换与DGA

  1. 数据处理模型
    RDD 数据机构, 可控制数据存储位置, 提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy reduceByKey等操作。 reduce by key是action
    为了满足各个应用场景, 抽象出RDD这一模型
  2. 依赖划分原则 为什么划分
    宽依赖 窄依赖
    关于数据恢复, 宽依赖需要完全执行 窄依赖需要重新执行与之相关父依赖。
  3. 处理效率
    多节点并发执行 增加分区树 增加任务数
  4. 容错处理
    传统数据库 重新执行日志中的sql, worker任务失败, 利用DAG重新调度, 在Hadoop另外节点直接执行。 流式计算中 Spark会记录日志和设置检查点,以便进行恢复。

5.3.2 RDD实现

源码分析 需要java Scale基础 暂时先看到这里

    原文作者:yunpiao
    原文地址: https://www.jianshu.com/p/64fd74bd19d0#comments
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞