美国Lending Club信贷平台数据分析报告-截止至18年Q2

前言

Lending Club是美国,同时也是世界最大的P2P互联网金融平台,于2014年12月31号在美国纳斯达克上市,从2007年6月成立截止至2018年6月底,在该平台共发生了200.41万人次的P2P借贷业务,借贷总金额为299.02亿美元,业务范围是美国的51个州,不良贷款率为10.99%。

本文以Kaggle平台的Lending Club公司2007年6月-2018年Q2季度的2004091条贷款数据(151个特征)为研究对象,首先利用Python实现对数据的清洗整理,其次利用Tableau对数据进行快速探索分析,总结了Lending Club(正文简称LC)平台上的贷款客户特征、贷款业务特征,贷款违约影响因素。最后回到Python建立贷款违约预测模型,预测贷款违约率。

整篇报告的结构如下:

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》

一、客户画像分析

(1)、客户基本信息分析

在客户基本信息分析方面,我们将从客户地域分布,客户职业分布,客户工作时间长度分布,客户收入占比变化及客户房产情况等5个角度进行切入。

1、客户地域分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图1、2007-2018年Lending Club公司贷款客户地域分布

从图中可以看出,客户占比最多的5个州分别是:加利福尼亚州(13.94%),纽约州(8.28%),德克萨斯州(8.24%),佛罗里达州(7.11%)和伊利诺斯州(4.38%)。而客户占比最小的两个州分别是:爱荷华州(0.001%,实际只有16个客户),北达科他州(0.15%)。基本可以发现,一般东西部沿海,经济比较发达的地区,人的贷款需求比较高,主要原因可能是,金融意识比较前卫,商业化水平高,消费水平高,资金需求比较大。也不难发现,这些州的坏账率也是比较高的,可能原因是,商业竞争比较激烈,导致收入的不稳定造成的。

2、客户职业分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图2、2007-2018年LC平台Top10职业分布情况

根据数据可以看出,经理在申请贷款的人数中,占有最高的比例,12.9%。因为这是客户自己填写的信息,经理是比较容易想到,而且比较泛化的名词,所以客户比较倾向于写经理,也是隐藏自己身份的一种方式。第二高的是政府官员,占比3.68%,其次技术员占比2.91%。护士和教师也位居前列。

3、客户工龄分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图3、2007-2018年LC平台工龄分布情况

从图中可以发现,LC三成以上的客户,都是工作年龄10年及以上的,说明LC为了防范信贷风险,对于客户的工龄筛选是很严格的。工龄在一年以下的客户,只占到8.11%,而工龄在3年以下的客户,占全部客户总数的24%不到。LC客户工龄中位数大概在6年。

4、客户收入占比变化

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图4、2007-2018年LC平台客户收入占比变化

从图4中可以发现:

1、年收入在3万到6万美元的中低收入客户占比最高,超过六成以上的客户,收入都在3万到9万美元之间;

2、收入在6万美元以下的客户占比越来越低,尤其是3万美元收入以下的客户,而收入在6万美元的客户占比越来越高,可以看出LC为了控制借贷的风险,对于收入的要求也在逐年增加;

3、从2016年开始,中低收入的人群占比出现了反弹,可能是因为LC上市后,一直处于亏损状态,迫于股东压力,扩大业务量,而放低了对于客户的审核要求。

5、客户住房类型分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图5、2007-2018年LC平台客户住房类型分布

从数据可以看出,有将近一般的客户,都是有住房的,不过同时也有着还房贷的经济压力,比例在49.19%。将近四成的客户(39.6%),是处于租房的状态,经济实力比较弱。只有11.17的客户,是有住房,且没有贷款压力的,相对比例较小。

总结:结合上面5个角度的分析,可以发现,LC的客户,大部分都在东西沿海地区,且多为工作十年以上的经理和公务员职业,收入水平大部分集中在收入3-9万美元之间,并且大部分客户有偿还按揭贷款的压力。

(2)、用户信用信息分析

在客户信用分析方面,将按照Grade等级和FICO值的关系,客户开户时长,贬损类公共记录和信用卡循环账户四个角度进行分析。

1、LC平台信用等级和FICO值关系

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图6、LC平台信用等级分布及与FICO值的关系

从比较中可以看出,

1、LC自己的信用评分体系Grade/Sub-Grade与FICO值具有很强的相关性,Grade值越高,对应的FICO也是越高的;

2、LC平台的客户,大部分在信用B和C中,即FICO值在690-720之间;

3、信用级别最低的FICO值也在680左右,说明LC平台对于客户的信用程度是把关很严格的,而且也是必要的。

2、客户开户时长分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图7、LC平台客户信用账户开户时长分布

从数据中可以看出,大部分的客户的开户时长都在10-31年,其中开户时长在10-17年的客户占比最高,比例达到40.16%,最短时长的客户,开户时间也有3年。时长超过38年以上的客户,总体数量很少,说明老年人对于P2P贷款的需求不高。一般来说,信用账户的开户时间,是银行评估客户信用度的重要指标。

3、贬损类公共记录

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图8、LC平台贬损类记录分布情况

从图中可以看出,有83.70%的客户,都是没有不良的贬损类记录的,说明LC平台上大部分客户的信用还是很好的。13.70%的客户有过一次的不良记录,总共有2.6%的客户,其贬损记录是超过2次的。

4、信用卡循环账户分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图9、LC平台信用卡循环额度分布

同图9中可以看出,

1、循环额度在5000-10000美元的客户占比最大,占到24.61%。超过60%以上的客户,额度都在15000美元以下;

2、随着额度增大,用户的占比数呈递减的趋势,到30000-35000美元区间时,只有1.58的客户;

3、还是有相当一部分的客户(10.95%)的额度是大于35000美元的,这一批客户需要特别观察。

总结:

1、LC的信用系统和FICO的信用系统是高度匹配的;

2、LC的客户,FICO分值大部分在(690-720之间),开户时长在10年以上,大部分的客户都没有贬损类记录,超过60%信用卡循环额度大部分在15000美元以下,说明LC的客户信用水平处于偏高的;

3、需要注意的是,有将近11%的客户,其信用卡循环额度在35000美元以上,是超支使用的,很可能导致P2P贷款偿还不上的情况。

二、平台借贷业务分析

在平台借贷业务分析上,主要从平均贷款额度变化,贷款目的分布,各信用等级贷款利率变化,各信用等级不良贷款率变化和DTI(月偿还额/月收入)的变化五个方面进行剖析LC的业务情况。

1、贷款额度明细

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图10、LC平台贷款明细表

从图10可以看出:

1、在2015年之前,LC不论在年贷款金额,贷款人数,以及人均贷款金额上,都是快速发展的,在2015年,LC的累计贷款总额达到了130.9亿美元;

2、从2015年开始,LC开始处于平稳发展期,每年的贷款金额,人数以及人均贷款额度都变化不大。

2、贷款目的分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图11、LC平台借款目的分布表

从分布中可以看出,有56.76%的客户借款是用来债务整合,22.29%的客户是用来偿还信用卡欠款,也就是说,有79%的借款行为,都是用来新债填旧债的。另外还有6.26%的客户是处于其他原因,这一块也很有可能是新债还旧债。处于家庭改善的原因,也有不少家庭选择P2P贷款的模式。

3、各信用等级贷款利率变化

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图12、贷款利率和信用等级的关系
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图13、利息率的变化情况

从上面两张图可以看出:

1、贷款利率在5-32%之间,主要依据是客户的信用等级,信用度越好,贷款的利率越低;

2、这些年的平均贷款利率稍微有些波动,但是保持在11-13%之间。

3、从2014年开始,LC平台的高利率贷款项目明显增多,这一情况在2016年达到了最严重的情况,但是在之后的两年,高利率贷款情况有明显得到控制。

4、贷款状态的分布

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图14、贷款状态分布

从上面分布可以看出:

1、有55.32%的贷款正在进行中,所以无法判断其中最后会有多少笔贷款拿不回来;

2、目前有33.59%的贷款顺利完成了交易;

3、有8.52%的客户,并没有还款,注销了账户,另外有1.38%的客户已经延迟了30天以上,并未偿还贷款。

5、DTI(月偿还额/月收入)的变化

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图15、LC平台客户DTI分布情况

从图中可以看出,大部分的贷款客户的DTI在35%以下,说明还款压力不是很大,另外有0.67%的客户,DTI大于45%,对其偿还贷款形成了比较大的压力。

总结:

1、平台的规模一直处于比较快速的发展,在2015年之后,发展速度趋缓;

2、超过79%的借贷目的,是为了偿还旧的债务,这对于平台来说不是一件很好的事;

3、贷款的利率是和客户信用呈正相关的,贷款利率在5-32%,这些年总体的利率稳定在11-13%之间,是远高于国债和企业债的收入的;

4、不良贷款率的水平在10.99%,而且还有55.32%的贷款还在进行中;

5、96%以上的客户,DTI值都在35%以下,59%以上的客户,DTI值都在20%以下,贷款客户的整体还贷压力不是很大。

三、不良贷款率相关性分析

从数据集中的151个特征中,选择了17个作者自认为重要的特征,通过清洗,补缺,分箱,转换后,进行了相关性分析,结果如下图:

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图16、客户特征相关性热图

从相关性热图中可以看出,

1、信用等级和不良贷款率的相关性最大(0.21),而利率是与信用等级直接相关的,所以它和不良贷款率之间也有着很大的相关性(0.19);

2、令人吃惊的是,信用开户时间和不良贷款率之间完全不相关,相关性为0,地域和不良贷款率之间也没有显而易见的相关性,也是0;

3、申请贷款的期限和不良贷款率之间是负相关(-0.08),可以理解为,申请贷款的时间越长,不确定性越大,贷款人拖欠贷款的可能性也越大;

4、DTI值(0.06)和收入(-0.05)也与不良贷款率存在一定关系,说明,月还款压力越小,收入越多,最后还款的意愿也是越强的;

5、房屋持有情况和不良贷款率存在一定的相关性(0.05),显然,有自有住房的客户,更愿意偿还贷款。

下面先从信用等级,利率,申请贷款期限,DTI值,收入和房屋持有情况五个方面进行二元分析。

(1)、二元相关性分析

1、信用等级和不良贷款率的关系

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图17、LC平台不良贷款率和信用等级的分布关系

从上图中可以看出,

1、随着信用等级的降低,不良贷款率是明显提升的,信用等级从F开始,不良贷款率高达31.54%,而信用等级G的不良贷款率更是高达32.14%;

2、信用等级为A时,不良贷款率明显很低,但是还是存在,说明信用借贷的情况,确实存在很多不可抗的因素。

2、贷款利率与不良贷款率的关系

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图18、贷款利率与不良贷款率的关系

从图中可以发现,不良贷款率的利率水平,高于良性的贷款,但是并没有想象的高,差值在3%以内,可能的原因是,低贷款利率的贷款基数大,而高贷款利率的贷款基数小,平均下来,拉低了不良贷款利率的均值。

3、申请贷款期限与不良贷款率的关系

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图19、贷款期限和不良贷款率的关系

从数据中可以看出,贷款期限长的贷款,不良贷款率越高,说明,时间越长,贷款的不确定性就越高,所以最后导致不良贷款的可能性也越大。

4、DTI值与不良贷款率的关系

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图20、DTI分布与不良贷款率关系

从数据中可以看出,随着DTI的增大,不良贷款率也在增大,但是这一趋势在DTI大于40%时,呈现出了反向的趋势,甚至在DTI大于45%的区间,不良贷款率只有6.09%,比DTI小于5%的区间还低,进一步的原因,可能需要多方的相关性发挖掘出来。

5、房屋持有情况与不良贷款率的关系

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图21、房屋持有情况与不良贷款率的关系

从以上数据可以看出,不同的房屋持有情况对于不良贷款率是有一定影响的。令人惊讶的是,自己拥有住房的贷款客户,不良贷款率居然比按揭还款用户高1.12%。租房客户的还款情况不容乐观,高达12.74%。最严重的是填写了other的客户,不良还款率高达20.88%。出人预料的是,填写了any的贷款客户,不良贷款率是最低的,只有6.08%,不过因为数量太少,可参考的价值不是很高。

(2)、多元相关性分析

《美国Lending Club信贷平台数据分析报告-截止至18年Q2》
《美国Lending Club信贷平台数据分析报告-截止至18年Q2》 图22、信用等级、贷款期限与DTI与不良贷款率的关系

从多元分析中可以发现,

1、一般情况下,短期的贷款违约率要比长期的低,但是在高信用客户中会发现,短期贷款的违约率是比长期的要高的;

2、随着DTI的增大,长期贷款的违约率,是逐渐比短期贷款的违约率要低的,而且仔细发现,在DTI在30-40区间,A类客户的不良贷款率下降特别明显;

3、大部分的贷款客户,都集中在DTI在30%以下,信用等级高于D级的范围;

总结:

1、从相关性分析来看,与不良贷款率相关性最大的是客户的信用等级和贷款利率;

2、贷款期限越长的贷款,不良贷款率也相对更高;

3、DTI是一个比收入更能反应与不良贷款率相关性的指标,但是当DTI超过30%时,不良贷款率猛降,主要贡献来自此区间的A类贷款客户,可以进行进一步研究;

4、相对于自有住房者,按揭住房的客户,按时还贷的可能性更高。

四、不良贷款预测模型

1、明确问题及评估体系的选择,

这个预测模型是为了筛选出存量客户中,有较强申请贷款业务的客户,所以这类预测为二分类的监督机器学习问题;

从已知的情况来看,不良贷款率是10.99%,属于不均衡的二分类问题,所以评估的标准不能单单以准确率为主,这里选择AUC值来评估模型的好坏,再通过调节评估的阈值,来微调预测结果;

2、模型特征选择,

通过前面的客户画像,平台业务特征,二元及多元特征分析,我们将客户的信用等级,贷款利率,贷款期限,DTI值,房屋持有情况,客户收入等6个特征作为贷款营销预测模型的特征值。

3、建立训练数据集和测试数据集,

我们将截止至2018年Q2季度,通过清洗后的2004033个客户信息作为数据集,拆分出75%训练数据集和25%测试数据集。

4、利用机器学习算法训练模型,通过选择模型及调节超参数,优化结果,

本文先用Logistics回归,随机数森林树,高斯等二分类模型进行初次预测。根据结果,选择最佳模型进行调参优化。

5、评估模型的准确率,

最后通过比较,Logistics回归模型结果最好,准确率为88.73%,AUC值为0.6837,最后方案可以根据业务需要,调节评估的阈值,来达到最优的业务目的。

    原文作者:蛋壳先生Dank
    原文地址: https://zhuanlan.zhihu.com/p/52458668
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞