数据挖掘十大经典算法(十)-----CART

简介

CART(classification and regression tree),分类回归树,是在ID3的基础上进行优化的决策树。是一棵二叉树,且每一个非叶结点都有两个孩子。当CART是分类树是,采用GINI值作为结点分裂的依据;当CART是回归树时,采用样本的最小方差作为结点分裂的依据。

怎样从分支变量的众多取值中找到一个当前的最佳切割点(切割阈值)

数值型变量:对记录值从小到大金星排序,计算每一个值作为临界点产生的子结点的异质性统计量,可以使异质性减小程度最大的临界值便是最佳的划分点;

分类型变量:列出划分为两个子集的全部可能组合,计算每种组合下生成子结点的异质性;相同,找到使异质性减小程度最大的组合作为最佳划分点;

结点分裂的终止条件,满足以下其一即停止生长

  • 结点达到全纯性
  • 树的深度达到用户指定的深度
  • 结点中样本的个数少于用户指定的个数;
  • 异质性指标下降的最大幅度小于用户指定的幅度

剪枝

当分类回归树划分的太细时,会对噪声数据产生过拟合作用,因而需要使用剪枝进行解决。剪枝又分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些结点能够剪掉;后剪枝是指构造出完整的决策树之后再来考察哪些子树能够剪掉。

预测

回归树—–预测值为叶结点目标变量的加权均值

分类树—–某叶结点预测的分类值应是造成错判损失最小的分类值

    原文作者:常用算法
    原文地址: https://blog.csdn.net/m0_38103546/article/details/81238392
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞