简介
CART(classification and regression tree),分类回归树,是在ID3的基础上进行优化的决策树。是一棵二叉树,且每一个非叶结点都有两个孩子。当CART是分类树是,采用GINI值作为结点分裂的依据;当CART是回归树时,采用样本的最小方差作为结点分裂的依据。
怎样从分支变量的众多取值中找到一个当前的最佳切割点(切割阈值)
数值型变量:对记录值从小到大金星排序,计算每一个值作为临界点产生的子结点的异质性统计量,可以使异质性减小程度最大的临界值便是最佳的划分点;
分类型变量:列出划分为两个子集的全部可能组合,计算每种组合下生成子结点的异质性;相同,找到使异质性减小程度最大的组合作为最佳划分点;
结点分裂的终止条件,满足以下其一即停止生长
- 结点达到全纯性
- 树的深度达到用户指定的深度
- 结点中样本的个数少于用户指定的个数;
- 异质性指标下降的最大幅度小于用户指定的幅度
剪枝
当分类回归树划分的太细时,会对噪声数据产生过拟合作用,因而需要使用剪枝进行解决。剪枝又分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些结点能够剪掉;后剪枝是指构造出完整的决策树之后再来考察哪些子树能够剪掉。
预测
回归树—–预测值为叶结点目标变量的加权均值
分类树—–某叶结点预测的分类值应是造成错判损失最小的分类值