spark运行原理、模型

2023年4月18日 211次阅读来源: VChao

2018/08/02
看了这么久的spark的书，他们都是讲怎么用spark的api去编程，而对于spark内部的运行原理却只字不提，或者言之甚少，重新再去看container和worker的关系，就很难理解这之间的数量关系。

2018/08/03
最主要的内容是这样的，昨天看了很多关于spark的网文，他们并没有去详细的介绍work、container、cores的关系，而是重点关注了spark的运作模型上，从RDD的角度出发，从任务部署的角度出发（应该还算不到任务调度，虽然涉及了，但我觉得不算是调度，仅仅是分配，可能我接触的都是并没有资源竞争的）。
通过job、task、stage这几个方向的角度，对整体上一个应用的运行模型进行了介绍。大致上有了些许理解，但还是感觉差戳破那层纸。

他们主要围绕的也就是RDD的这个数据处理的内容，这个算是整个数据处理流程的出发点。
2018/11/27
这他么当时也没留下一些干货，以后怕是直接就忘了，即使翻出书也跟新的知识一样。

    原文作者：VChao
    原文地址: https://www.jianshu.com/p/8ad1084dc6a1
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。