结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类:
一、spark相关
1.Spark的Shuffle原理及调优?
2.hadoop和spark使用场景?
3.spark如何保证宕机迅速恢复?
4.hadoop和spark的相同点和不同点?
5.RDD持久化原理?
6.checkpoint检查点机制?
7.checkpoint和持久化机制的区别?
8.Spark Streaming和Storm有何区别?
9.RDD机制?
10.Spark streaming以及基本工作原理?
11.DStream以及基本工作原理?
12.spark有哪些组件?
13.spark工作机制?
14.Spark工作的一个流程?
15.spark核心编程原理?
16.spark基本工作原理?
17.spark性能优化有哪些?
18.updateStateByKey详解?
19.宽依赖和窄依赖?
20.spark streaming中有状态转化操作?
21.spark常用的计算框架?
22.spark整体架构?
23.Spark的特点是什么?
24.搭建spark集群步骤?
25.Spark的三种提交模式是什么?
26..spark内核架构原理?
27.Spark yarn-cluster架构?
28.Spark yarn-client架构?
29.SparkContext初始化原理?
30.Spark主备切换机制原理剖析?
31.spark支持故障恢复的方式?
32.spark解决了hadoop的哪些问题?
33.数据倾斜的产生和解决办法?
34.spark 实现高可用性:High Availability?
35.spark实际工作中,是怎么来根据任务量,判定需要多少资源的?
36.spark中怎么解决内存泄漏问题?
二、hadoop
1.讲述HDFS上传文件和读文件的流程?
2.HDFS在上传文件的时候,如果其中一个块突然损坏了怎么办?
3.NameNode的作用?
4.NameNode在启动的时候会做哪些操作?
5.NameNode的HA?
6.Hadoop的作业提交流程?
7.Hadoop怎么分片?
8.如何减少Hadoop Map端到Reduce端的数据传输量?
9.Hadoop的Shuffle?
10.哪些场景才能使用Combiner呢?
11.HMaster的作用?
12.如何实现hadoop的安全机制?
13.hadoop的调度策略的实现,你们使用的是那种策略,为什么?
14.数据倾斜怎么处理?
15.评述hadoop运行原理?
16.简答说一下hadoop的map-reduce编程模型?
17.hadoop的TextInputFormat作用是什么,如何自定义实现?
18.map-reduce程序运行的时候会有什么比较常见的问题?
19.Hadoop平台集群配置、环境变量设置?
20.Hadoop性能调优?
21.Hadoop高并发?
三、HBase
1.HBase的操作数据的步骤?
2.HDFS和HBase各自使用场景?
3.热点现象及解决办法?
4.RowKey的设计原则?
5.hbase.hregion.max.filesize应该设置多少合适?
6.autoflush=false的影响?
8.Hbase行健列族的概念,物理模型,表的设计原则?
9.HBase存储单元Cell?
10.HBase物理模型?
11.HBase的客户端Client?
12.HBase二级索引?
四、Hive
1. hadoop中两个大表实现join的操作,简单描述?
2.Hive中存放是什么?
3.Hive与关系型数据库的关系?
4.讲一下数据库,SQl ,左外连接, 原理,实现?
5.大表和小表join?
6. 数据清洗怎么做的?怎么用spark做数据清洗?
7. Hadoop中二次排序怎么做?
8. hadoop常见的join操作?
9. hive优化有哪些?
10. 分析函数?
五、Java
1.讲讲多线程吧,要是你,你怎么实现一个线程池呢?
2.项目用什么语言写? Scala? Scala的特点? 和Java的区别?
3.平时对多线程这方面是怎么处理呢?
4.什么是jvm?
5.jvm怎么调优的?
6.jvm结构?堆里面几个区?
7.jdbc?mysql的驱动包名字叫什么?
8.java自带有哪几种线程池?
9. GC机制?
10. 使用泛型的好处?
11.HashMap?
12.Java多线程的状态?
六、机器学习算法
1.简要描述你知道的数据挖掘算法和使用场景?
2.mllib支持的算法?
3.ALS算法原理?
4.kmeans算法原理?
5.canopy算法原理?
6.朴素贝叶斯分类算法原理?
7.关联规则挖掘算法apriori原理?