ID3 ，C4.5 CART 三种算法的优缺点

2024年2月7日 108次阅读来源: 368chen

ID3 算法的核心是最大信息熵增益，原则选择划分当前数据集的最好特征，信息熵是信息论里面的，是信息的度量方式，不确定度越大或者说越混乱，熵就越大，在建立决策树的过程中，根据特征属性划分数据，使得原本“混乱” 的数据的熵（混乱度）减少，按照不同特征划分数据熵减少的程度会不一样，在ID3中选择熵减少程度最大的特征来划分数据（贪心），也就是“ 最大信息熵增益” 原则。

缺点：只能处理离散型属性，并且对倾向于选择取值较多的属性

原因：信息增益反映的给定一个条件以后不确定性减少的程度，必然是分的越细的数据集确定性更高，也就是条件熵越小，信息增益越大。

C4.5

C4.5 算法流程与ID3 相类似，只不过将信息增益改为信息增益比，以解决偏向取值较多的属性问题，另外可以处理连续型号属性。

CART

CART 是一颗二叉树，采用二元切分法，每次把数据切成两份，分别进入左子树，右子树，而且每个非叶子节点都有两个孩子，所以CART 的叶子节点比非叶子多1。相比于ID3和C4.5,CART 应用要多一些，既可以用于分类也可以用于回归，CART 分类时，使用基尼指数（Gini）来选择最好的数据分割特征，gini 描述的是纯度，与信息熵的含义相似，CART的每一次迭代都会降低GINI 系数。

相对于ID3 使用的信息增益，CART 中用于选择变量的不纯性度量是Gini 指数，总体内包含的类别越杂乱，GINI 指数就越大。（跟熵的概念很相似）。

GINI 指数：是一种不等性度量；通常用来度量收入不平衡，可以用来度量任何不均匀分布；是介于0-1 之间的数，0- 完全相等，1-完全不相等；总体内包含的类别越杂乱，GINI 指数就越大（跟熵的概念很相似）。

CART 分析步骤：

1 从根节点t=1开始，从所有可能候选S集合中搜索使不纯性降低最大的划分S*，然后划分S* 将节点1（t=1），划分成两个节点t=2和t=3；

基尼不纯度指标：

在CART 算法中。基尼不纯度表达一个随机选中的样本在子集中被分错的可能性，基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为零。

离散和连续目标变量的区别：

同时，如果目标变量是标称的，并且是具有两个以上的类型，则CART 可能考虑将目标类别合并成两个超类别（双化）

如果目标变量是连续的，则CART 算法找出一组基于树的回归方程来预测目标变量。

    原文作者：368chen
    原文地址: https://blog.csdn.net/qq_16236875/article/details/102730062
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。