2018/08/02
看了这么久的spark的书,他们都是讲怎么用spark的api去编程,而对于spark内部的运行原理却只字不提,或者言之甚少,重新再去看container和worker的关系,就很难理解这之间的数量关系。
2018/08/03
最主要的内容是这样的,昨天看了很多关于spark的网文,他们并没有去详细的介绍work、container、cores的关系,而是重点关注了spark的运作模型上,从RDD的角度出发,从任务部署的角度出发(应该还算不到任务调度,虽然涉及了,但我觉得不算是调度,仅仅是分配,可能我接触的都是并没有资源竞争的)。
通过job、task、stage这几个方向的角度,对整体上一个应用的运行模型进行了介绍。大致上有了些许理解,但还是感觉差戳破那层纸。
他们主要围绕的也就是RDD的这个数据处理的内容,这个算是整个数据处理流程的出发点。
2018/11/27
这他么当时也没留下一些干货,以后怕是直接就忘了,即使翻出书也跟新的知识一样。