spark大数据计算框架的原理就是以scala的内存计算为基础,然后将一个大计算量的计算,在spark中叫job,根据宽窄依赖划分成多个stage,每个stage包含多个task,然后把task发送给work上的executor去执行.
shuffle的map操作在上一个stage,shuffle的reduce操作在下一个stage,并且会拉取上一个阶段产生的小文件.
spark大数据计算框架的原理就是以scala的内存计算为基础,然后将一个大计算量的计算,在spark中叫job,根据宽窄依赖划分成多个stage,每个stage包含多个task,然后把task发送给work上的executor去执行.
shuffle的map操作在上一个stage,shuffle的reduce操作在下一个stage,并且会拉取上一个阶段产生的小文件.