【ML笔记】信息增益、Gini、信息增益率

2022年6月21日 192次阅读来源: roguesir

前言

本文介绍三种决策树算法中的分枝依据，分别是ID3算法中的信息增益(Info Gain)，CART算法中的Gini，C4.5中的信息增益率(Info Gain Ratio)，我在这篇文章中介绍了决策树ID3和C4.5算法的异同，现在来详细介绍这三种分枝依据。

ID3算法中的信息增益

提信息增益，首先要了解什么是信息熵(Info Entropy)，信息熵是信息论中的一个重要物理量，高中学化学时候接触过熵的概念，用于描述物质的混乱程度，熵值越大，混乱程度越大，熵值越小，混乱程度越小，当熵值为0时，说明是纯物质，类比过来，就是一个确定信息，当熵值最大时，说明物质完全混乱，类比过来，就是一个完全不确定信息。我们应用决策树算法的目的，就是从众多属性中，通过不断选择属性，使得我们的决策分枝越来越明确，即信息熵越来越小。在选择属性的过程中，为了让算法更快收敛，我们按照属性对决策结果影响程度由打到小依次选取，这就需要定义一个物理量，用来描述属性对信息确定性的影响程度，这个物理量就是信息增益，其实就是选取某一属性信息熵的增量。

理解了信息熵和信息增益的概念之后，看他们的公式就舒服多了，信息熵的公式如下：

《【ML笔记】信息增益、Gini、信息增益率》