随着三月初蚂蚁金服内推开启,整个暑期实习生招聘大幕也正式打开,这一场从三月初持续到之后五月的笔试面试过程,确实让笔者真真切切的感受到基础的重要性,面试和笔试不仅从机器学习,自然语言处理,数据结构与算法,高数概率论等方面考察,还包括智力题,逻辑题等。
阿里巴巴
一面:
1. 介绍项目(只针对自然语言处理项目询问,召回率、准确率如何);
2. 深度学习如何提取query特征,如何利用深度学习计算语义相似度;(深度学习语义相似度可以参考《浅析文本相似度》)
3. 写二叉树的前序遍历,中序遍历,统计二叉树所有路径和;
二面:
1. RNN为什么会梯度消失,LSTM怎么能解决梯度消失问题;(RNN、LSTM有关梯度消失的问题可以参考《理解RNN、LSTM、GRU和Gradient Vanishing》)
2. 优化算法介绍并说一下特点(介绍了自适应率学习算法Adagrad和Adam,深度学习优化算法可以参考《深度学习优化算法总结》);
3. Dropout的原理;
4. 交叉熵损失函数是什么,在什么地方使用过,介绍一下;
5. 介绍一下Word2vec,CBOW和Skip-gram的区别是什么;
6. GBDT和Xgboost介绍一下,并说一下区别(关于XGboost、GBDT和RF的总结可以参考《RF、GBDT、XGBoost面试级整理》);
7. 写代码:现在有词向量词典,计算句子相似度(Consine Similarity)
美团
一面:
1. 介绍项目(项目中一些问题如何解决的;项目的难点在哪儿;如何解决的;你在里面干了些什么);
2. 介绍一下随机森林和Xgboost,有什么区别(从bagging和boosting角度);
3. 什么是SGD,什么是batch size;
4. 深度学习优化算法有哪些,随便介绍一个(说的Adagrad,优缺点明显,进退自如);
5. 现有一个神经网络和64个样本,Batch gradient descent和SGD的时间复杂度和效果比较;采用批梯度下降时,神经网络参数更新了几次;
二面:
1. Two Sum问题(Leetcode第一题,采用hash map解决);
2. 如何找到10万以内的所有质数;
3. 逻辑斯蒂回归的损失函数怎么来的,如何进行梯度更新;
百度
百度一面:
1. 介绍项目(一些项目细节;项目的准确率;召回率如何);
2. 京东项目中Xgboost原理,xgboost有哪些参数,怎么调整xgboost的参数;
3. 智力题:现在有三枚硬币,一个是一正一反,一个是两面都是正,一个是两面都是反,现在随机抛出一枚硬币是正面,那么这枚硬币的反面也是正面的概率;(2/3)
4. 代码实现海量数据处理问题:现在有一个比较小的数据表(包括id, score),另外有一个十分大的(上千万级别)的数据表(包括id, name),现在需要以id为索引将两张表合并,如何在O(n)时间复杂度完成。(hash map解决,海量数据处理问题参照这篇博客《 十道海量数据处理面试题与十个方法大总结》)
追一科技
一面
1. 介绍项目(项目准确率;召回率;特征工程怎么做的;项目难点在什么位置;如何解决的;用了什么深度学习的方法);
2. 既然提到对话系统,简单介绍一下(非任务型和任务型balabala…..),了解非任务型对话系统么,介绍一下;(关于对话系统可以参考《人机对话系统调研》)
3. 平时用什么语言写代码啊,用python么(用),java怎么样(一般般),c用不用(不怎么用);
4. 看你简历里面没写GRU,了解GRU么,和LSTM、RNN的区别在什么地方(从梯度消失的层面回答);
5. GBDT的损失函数是什么;
6. 了解红黑树么(–没看到这儿来 –那算了,换个问题);
7. 64匹马,8个跑道,选出速度最快的4匹马需要多少次(回答12次,后来知道最好是11次)
百度度秘
一面:
1. 介绍项目(项目细节;项目难点;有什么方法;你在里面发挥的作用;这个系统现在还有什么可以改进的地方么);
2. 看你项目中用到了LSTM,介绍一下LSTM(介绍LSTM时候提到RNN,打断询问RNN为什么有梯度消失问题,给出具体公式);
3. LSTM用什么框架实现的,能不能介绍一下Word2ver如何使用在其中,使用Word2vec和不使用word2vec的效果如何;
4. 正则化方法有哪些,介绍一下(说到L1和L2时,重点问了一下为什么梯度稀疏和梯度选择,用公式推导讲了一下,过拟合问题可以参照《深度学习相关总结》);
5. 看你简历上说博客记载了机器学习、数据挖掘和深度学习的内容,那你简单说一下这三者的区别;
6. 编程题:二叉搜索树的插入和搜索;
7. 有序循环链表中(后简化为元素从小到大有序循环链表),如何在O(1)时间内完成最大值插入;
腾讯
一面:
1. 写代码实现列表 [0,0,6,2,8,0,0] —-> [6,2,8,0,0,0],要求O(n)时间复杂度和O(1)空间复杂度;
2. 写代码实现 [1,2,3,2,2,3,4,…] —-> [1,2,3](先去重再取top K,这里的K取3),要求in place操作,O(n) 时间复杂度和O(1)空间复杂度;
3. LSTM用来解决RNN的什么问题?如何解决的?既然说到forget gate,那么说一下forget gate的取值范围?(sigmoid 取值(0,1))forget gate是具体的值还是向量?(向量),如何理解这个向量;
4. 深度学习用的什么框架,Tensorflow?(Keras),那介绍一下深度学习中的过拟合如何解决?(从数据、单模型、模型集成三个角度回答);
5. 深度学习优化算法用过哪些?讲讲Sgd和gd的区别?
6. 对SVM(考虑线性可分情况)、LR和DT熟悉么? 从损失函数说一下区别,SVM的损失函数是什么?(合页损失函数,写一下讲一下)。LR呢?(利用最大似然估计得出)。又问一下SVM线性可分情况下决策边界不同位置的损失值。DT如何进行特征选择?(ID3信息增益)。介绍一下信息熵?(随机变量不确定性,度量系统稳定性) [1/3,1/3,1/3]和[1/2,1/4,1/4]哪个的信息熵大?回归任务中如何进行特征选择?(平方损失准则)
7. 海量数据处理。现在有1千万行词,需要统计各个词出现的次数,目前有一台机器内存1G,磁盘100G?(海量数据处理blog的第一题,先利用Hash对原始文本进行分割(hash(word)%2000,分为2000个文件),再使用hashmap(python中的字典)在各个文件中分别统计)。
8. Python基础。现在有一个列表,需要选择其中大于0的数?(列表生成式)
9. LTR(learning to rank)。介绍一下ltr的三种方式?其中pairwise在训练时怎么做?(转化为二分类)在测试的时候怎么做?
10. 文本分类的项目中用到CNN没有?介绍一下CNN?那CNN在文本分类任务中卷积核和一般的图像任务中的卷积核有什么区别?(balabala)
11. 熟悉Attention么,介绍一下?(balabala)
二面:
1. 在你的项目中如何判断word2vec的效果好坏,如何评判对模型和结果的影响?项目中使用的xgboost是哪个版本的?谁写的(懵了)
2. 如何从概率角度理解AUC?二分类问题中,一个正负类比是1:1000,一个是1:100,它们的AUC和ROC有什么区别?
3. 了解交叉熵损失函数么?在哪个场景使用过?它和最大似然估计是什么关系?
4. 熟悉什么语言?Python么?用过里面的zip函数(有点没听清)没?
腾讯二面前刷的一碗面经:
1. 覆盖字符串所有字符的最小字串;(leetcode第76题)利用滑动窗口;
2. 反转链表的前k个;(变型:按k个结点一组来反转链表)
方法:都是利用翻转链表的方法,只是局部翻转,再添加头尾结点。
3. 求二叉树最大深度;(递归)
4. 序列模型中markov和rnn的区别;
(rnn和hmm最本质的区别在于rnn没有马尔科夫假设,因此从理论上可以考虑很久的信息;同时hmm本质上是一个概率模型,而rnn不是;此外rnn具备神经网络的拟合非线性的能力)。
5. 字符串出现第k多的字符;
(hash map进行统计,然后对dict进行排序
6. 一个过拟合模型和大量数据,如何判断这些数据有没有用?
(利用采样的方法,采样部分数据然后运行过拟合模型看看效果;)
7. lr和svm的区别
(从lr的由来讲损失函数,对于svm讲最大间隔。区别在于损失函数不同;svm只需要考虑支持向量,而lr需要考虑所有的点;svm本质上是基于距离的,因此其输出无法直接产生概率,lr输出的是其属于分类的概率;在非线性的情况下,svm使用核函数解决,而lr通常不使用核函数;svm自带正则话,因此是结构风险最小化算法)
8. 特征选择的方法;
9. AUC是什么?就是ROC曲线下的部分,表示什么?
10. 快速排序;
11. 一个数组中超过一半的数字;
((1)hashmap直接统计,(2)hashmap间接统计,利用数组中的一个数字和次数,当相同的时候1,不同的时候1,如果次数为0则,保留下一个元素且次数设置为1,那么最后留下来为1的数字就是次数最多的;(3)归并排序选中间元素;)
12. 有一个能产生1-5的随机数的函数,怎么修改之后能够产生1-7的随机数;
13. 快速排序,归并排序,深度遍历和广度遍历;
14. 解释一下lucene原理,怎么进行中文分词,基于什么进行分词;
15. a,…z所有字母组合方式;
16. 输入一个数,输出这个整数里面最大的质数;
祝大家好运~