spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置。分别是driver memory 和executor memory。
从名字上大概可以猜出大概。具体就是说driver memory并不是master分配了多少内存,而是管理多少内存。换言之就是为当前应用分配了多少内存。
executor memory是每个节点上占用的内存。每一个节点可使用内存。
单独设置其中一个,集群仍能正常启动。
实际应用中,初步感觉executor memory受限于driver memory。当executor memory设置特别大,而driver memory默认时,应用可分配的内存依然很小,数据达到一定程度就会爆栈。故而当前一般先设置DM(driver memory),随后根据集群情况、任务大小等实际情况来设置EM(executor memory)。
而二者有什么关系,待随后有时间,查看spark源代码实现,进行分析。
二者分配的上限下限分别是什么,也需要随后实践来证明。在此留下一问,随后解决。