【ML笔记】信息增益、Gini、信息增益率

前言

本文介绍三种决策树算法中的分枝依据,分别是ID3算法中的信息增益(Info Gain),CART算法中的Gini,C4.5中的信息增益率(Info Gain Ratio),我在这篇文章中介绍了决策树ID3和C4.5算法的异同,现在来详细介绍这三种分枝依据。

ID3算法中的信息增益

提信息增益,首先要了解什么是信息熵(Info Entropy),信息熵是信息论中的一个重要物理量,高中学化学时候接触过熵的概念,用于描述物质的混乱程度,熵值越大,混乱程度越大,熵值越小,混乱程度越小,当熵值为0时,说明是纯物质,类比过来,就是一个确定信息,当熵值最大时,说明物质完全混乱,类比过来,就是一个完全不确定信息。我们应用决策树算法的目的,就是从众多属性中,通过不断选择属性,使得我们的决策分枝越来越明确,即信息熵越来越小。在选择属性的过程中,为了让算法更快收敛,我们按照属性对决策结果影响程度由打到小依次选取,这就需要定义一个物理量,用来描述属性对信息确定性的影响程度,这个物理量就是信息增益,其实就是选取某一属性信息熵的增量。

理解了信息熵和信息增益的概念之后,看他们的公式就舒服多了,信息熵的公式如下:

《【ML笔记】信息增益、Gini、信息增益率》

对于事件B,在事件A发生情况下的条件信息熵为:

《【ML笔记】信息增益、Gini、信息增益率》

信息增益公式如下,即属性A的发生与否,对与事件B的影响增量

《【ML笔记】信息增益、Gini、信息增益率》

CART算法中的基尼指数

基尼指数(Gini Index)是CART算法的衡量依据。决策树的生成就是递归地构建二叉树的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。

其基本原理如下:假设某分类问题有K个类别,样本点属于第k类的概率为pk,则概率分布的基尼指数为:

《【ML笔记】信息增益、Gini、信息增益率》

在属性A发生的情况下,决策事件B发生的基尼指数为:

《【ML笔记】信息增益、Gini、信息增益率》

C4.5算法中的信息增益率

信息增益率(Info Gain Ratio)也称信息增益比,用于解决信息增益对属性选择取值较多的问题,信息增益率为信息增益与该特征的信息熵之比。公式如下:

《【ML笔记】信息增益、Gini、信息增益率》

了解上面信息熵和信息增益的公式,理解信息增益率就很容易了。

参考文献

李航《统计学习方法》

《数据挖掘导论》

周志华《机器学习》

http://blog.csdn.net/athenaer/article/details/8425479

http://blog.csdn.net/cyningsun/article/details/8735169

    原文作者:roguesir
    原文地址: https://blog.csdn.net/roguesir/article/details/76619919
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞