写在最前面的话
最近看有些同学在找金融风控方面的工作。咱们课程涉及到的,主要是建模的过程。有些同学对整个业务框架不是很了解,所以总结了一下平时面试聊的比较多的一些点。
前九道题都是工作中一定会碰到的基本内容,如果有一些这方面的工作经验,基本上都会聊到。后面的因人而异,工作经验少的同学,面试官可能会重点看一下对算法的理解,以及一些SQL能力。
第一题:你们公司的主要业务是什么?
- 属于什么类型的贷款产品(现金贷、消费分期等等)
- 客户一般来自什么渠道,是特定的群体(比如滴水贷只借给滴滴平台的司机),还是面向所有人的(比如常规的p2p公司)
- 贷款额度、还款周期
第二题:你们的业务做得怎么样?
- 通过率是多少
- pd0、pd7、pd30 大概是多少
注意:这些都反应了你的模型做的如何,通过率越高,逾期率越低,模型越好。
ps:pd0指的是到期当天,pd1指的是逾期一天。
第三题:你都负责哪些业务?
- 准入策略
- 风控模型
- 贷后监控
我们平台的学员,主要是风控模型这块。监控也是必须的,我们要时刻关心模型的通过率和贷后表现是否有异常,警惕欺诈。
第四题:你讲一讲你模型是怎么做的?
- 确定y如何标记(逾期几天为1,几天为0,每种产品不一样,如果不知道,我建议你说15天为分割点,没什么大问题)
- 前期数据准备(数据来自 HIVE?MySQL?MongoDB?Spark?)
- 这里就可以接上学过的风控项目
包括各种算法,建模技巧,基本上都是这里引出的。
第五题:你是标记客户好坏的?
- 逾期天数作为标记好坏的依据
- 因为本身样本不均衡,会偏向扩充坏人的数量(比如以pd1来标记好坏,坏人肯定比pd15会多很多)
- 注意很多公司建模的时候,去除一部分灰色客户(比如去掉pd1~pd5的客户)
第六题:你做模型时用到了哪些数据源?
- 征信数据
- 运营商数据
- 埋点数据
- 平台自有数据
- 用户手填数据
数据有很多,每家都各有不同,小心点也可能问你数据来自哪家平台哦。
ps:见过很多小型公司都喜欢用运营商数据,因为便宜,很多都是免费的。
第七题 模型的效果怎么样?
- 测试集和跨时间验证集的KS和AUC是多少
- 上线后一个月或者几个月后,模型的KS是多少,AUC是多少
第八题:你们模型是怎么部署上线的?
我经历过的几种上线方法可以分享给大家。
- 最简单的,把评分卡每个区间加多少分减多少分,怎么做映射的逻辑,讲给开发小哥,他会帮你在线上写 if else
- 生成一个pmml文件,给开发小哥调用
- 公司自己做的决策引擎,或者是租的,自己写变量逻辑上线
- 用flask或者Django自己写接口上线
第九题:上线需要注意什么?
- 线上线下变量的逻辑必须完全一致,这是最重要的
- 很多公司会做类似于A\B test,两套模型竞争(一个champion做决策,和一个challenger空跑,也有可能champion 70%,challenger 30%)
第十题:推导一下逻辑回归 & XGBOOST
- 对于别人可能有些难度,但我相信咱们平台的学员是完全没有问题的
第十一题:讲一下评分卡的分数映射公式
- 推导主要是换底公式,详见评分卡文档
- 如果现在刻度区间过大应该如何调整
这里的逻辑要搞清楚,不然通过率出了问题,连怎么调整都不知道
第十二题:手写一下SQL代码
一般算法岗对SQL能力都是有要求的,稍加练习基本没有问题,这里放一个我们公司的笔试题。
- 请取出,每个班级 所有课程 平均分大于80分的 学生名字