Random Forest & GBDT & XGBOOST & LightGBM面试问题整理

一.知识点

二.特征重要性评估

    基于树的集成算法有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要性,便于理解哪些因素是对预测有关键影响,有效筛选特征。

Random Forest

  • 袋外数据错误率评估

    由于RF采用bootstrapping有放回采样, 一个样本不被采样到的概率为

    limm(11m)m=1e0.368 lim m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 因此约有 13 1 3 样本可用于”包外估计”(out-of-bag estimate, OOB)。

    袋外数据错误率定义为:袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。

  • Gini系数评价指标

    特征 xj x j 在单棵树的变量重要性(variable importance measures)定义为:特征在所有非叶节点分裂时加权不纯度(weighted impurity)的减少量

    假设有数据集有 K K 个类别,那么节点 m m 的Gini指数为

    GIm=1k=1Kp2mk G I m = 1 − ∑ k = 1 K p m k 2
    那么特征 xj x j 在第 i i 棵树的重要性为
    VIMij=mMiNmGImNlGIlNrGIr V I M i j = ∑ m ∈ M i N m ∗ G I m − N l ∗ G I l − N r ∗ G I r
    其中 Mi M i 是特征 xj x j 在第 i i 棵树种作为分裂特征的节点集合, NmNlNr N m 、 N l 、 N r 分别表示节点 m m 及其左右孩子节点的样本数。

    特征 xj x j 的全局重要性即为特征 xj x j 在所有树的平均加权不纯度:

    VIMj=1Ni=1NVIMij V I M j = 1 N ∑ i = 1 N V I M i j
    最后,把所有求得的重要性评分做一个归一化处理即可。

reference:
[1]. https://blog.csdn.net/zjuPeco/article/details/77371645?locationNum=7&fps=1
[2]. https://blog.csdn.net/tinkle181129/article/details/80231871

GBDT

  • Gini系数评价指标

    同Random Forest。

reference:
[1]. https://blog.csdn.net/yangxudong/article/details/53899260

XGBOOST
TO BE CONTINUED.

三. 模型优缺点

点赞