spark 任务分发

2023年6月4日 314次阅读来源: pantyhope

spark大数据计算框架的原理就是以scala的内存计算为基础,然后将一个大计算量的计算,在spark中叫job,根据宽窄依赖划分成多个stage,每个stage包含多个task,然后把task发送给work上的executor去执行.
shuffle的map操作在上一个stage,shuffle的reduce操作在下一个stage,并且会拉取上一个阶段产生的小文件.

    原文作者：pantyhope
    原文地址: https://www.jianshu.com/p/0e562bbe5ab0
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。