4、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?
5、Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?
7、简单说一下hadoop和spark的shuffle相同和差异?
17、RDD中reduceBykey与groupByKey哪个性能好,为什么?
18、spark streming在实时处理时会发生什么故障,如何停止,解决?
19、spark streaming 读取kafka数据的两种方式?
?
29、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?
30、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?
31、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?