神经网络
1、简述反向传播原理 (阿里),面试官微信发了一道反向传播的算数题,要求算出结果并解释 (要能计算的)
2、sigmoid和ReLU的优劣
3、梯度消失问题和损失函数有关吗?
4、Dropout为什么能防止过拟合?
5、Batch Normalization有什么好处?
6、讲讲Adam优化算法
7、能想到哪些衡量两个向量之间距离的方法(L1, L2, cosine,或者深度学习里训练MLP作为距离函数,注意normalization)
8、衡量两个字符串之间距离的方法?(楼主答了edit distance和Jaccard distance,不知道还有没有其他常用的)
9、LSTM相比普通RNN有哪些优势?为什么能解决梯度消失?
10、LSTM和GRU用哪个好?(楼主表示两个之间没有绝对的优劣..面试官表示认同,说实际应用里确实会因为计算速度而选择GRU)
11、梯度消失梯度爆炸怎么解决
12、RNN容易梯度消失,怎么解决(LSTM)
13、LSTM跟RNN有啥区别
14、KMeans讲讲,KMeans有什么缺点,K怎么确定
15、卷积层和池化层有什么区别
16、防止过拟合有哪些方法
17、阐述SVM原理,为何使用对偶性以及对偶性原理,SVM如何解决多分类,SVM与LR对比。
18、阐述GBDT、xgboost、lightGBM的异同,xgb的优势,lgb的优势,二者的并行如何实现。
19、阐述word2vec的原理,为何使用哈弗曼树,如何构建哈夫曼,负采样的原理。
20、对于一个取值较多的类别变量在不能进行onehot的情况下如何使用?
1、给定一个query和一个doc,能想到哪些衡量相关性的方法(答了bag of words, LSTM encode, CNN encode, bi-directional attention等等);面试官最后提到一种match-CNN说楼主可以面试完研究一下
3、LSTM、GRU、RNN的原理以及差别
4、梯度消失与梯度爆炸的产生原因,如何避免?
5、CNN的原理,卷积为何有效?1*1卷积的作用?
6、HMM与CRF的原理,差别,是全局最优还是局部最优以及为什么。
7、讲一下其中的LR、SVM,以及区别和联系