第五章 数据处理与执行
5.3 RDD转换与DGA
- 数据处理模型
RDD 数据机构, 可控制数据存储位置, 提供操作 map flatmap filter可以对RDD进行转换。RDD还提供join groupBy reduceByKey等操作。 reduce by key是action
为了满足各个应用场景, 抽象出RDD这一模型 - 依赖划分原则 为什么划分
宽依赖 窄依赖
关于数据恢复, 宽依赖需要完全执行 窄依赖需要重新执行与之相关父依赖。 - 处理效率
多节点并发执行 增加分区树 增加任务数 - 容错处理
传统数据库 重新执行日志中的sql, worker任务失败, 利用DAG重新调度, 在Hadoop另外节点直接执行。 流式计算中 Spark会记录日志和设置检查点,以便进行恢复。