R: 学习Gradient Boosting算法，提高预测模型准确率

2024年5月17日 118次阅读来源: rokia_xmu

引言

预测模型的准确率可以用2种方法来提高：要么进行特征设计,要么直接使用boosting算法。参加过许多数据科学大赛后，我发现许多人喜欢用boosting算法，因为它只需更少的时间就能产生相似的结果。

目前有许多boosting算法，如Gradient Boosting、 XGBoost,、AdaBoost和Gentle Boost等等。每个算法都有自己基本的数学原理并且在使用它们时都会发现有一些细微的变化。如果你刚接触boosting算法，那太好了！从现在开始你可以在一周内学习所有这些概念。

在本文中，我解释了Gradient Boosting算法的基本概念和复杂性。另外，我也分享了一个实例来学习它在R中的应用。

简要的说明

一旦使用boosting算法，你很快就会发现两个频繁出现的术语：Bagging和Boosting。那么，它们有什么不同呢？下面将一一解释：

Bagging：这是一种方法，当你使用随机采样的数据，建立学习算法，采取简单的手段以找到bagging的可能性。

Boosting：与Bagging类似，但是，对样本的选择更智能。我们随后会对难以分类的样本分配较大的权重。

好！我明白你脑中会产生类似的疑问，像‘难以分类的样本’是什么意思？我怎么知道应该要给错误分类的样本多少额外的权重？不要着急，接下来我将回答你所有的疑问。

让我们从一个简单的例子开始学习

假设，你需要改进先前的模型M。现在，你发现模型已经有80%（在所有指标下）的准确率。你怎样提高M的性能呢？

一种简单的办法是利用一个新的输入变量集建立一个完全不同的模型，并尝试更好的学习模型。与之相反，我有一个更简单的方法，该模型是这样的：

Y = M(x) + error

如果我能够看到误差（error）并不是白噪声，而是跟输出结果（Y）有相关性呢？倘若我们在误差项（error）上再建立一个模型呢？比如，

error = G(x) + error2

也许，你会看到误差率提高到一个更高的数字，比如84%。让我们继续另一个步骤并对error2进行回归。

error2 = H(x) + error3

现在，我们把所有这些组合到一起：

Y = M(x) + G(x) + H(x) + error3

这也许会有超过84%的准确率。如果我们能够找到这三个学习模型的每一个的优化权重呢？

Y = alpha * M(x) + beta * G(x) + gamma * H(x) + error4

如果我们找到了好的权重，我们很有可能做了一个更好的模型。这是boosting学习的基本原则。当我第一次读到这个理论时，很快我就产生了2个问题：

1. 在回归/分类等式中我们能真正看到非白噪声误差么？如果不能，我们怎么能使用这个算法。

2. 如果这有可能的话，为什么没有接近100%的准确率呢？

在本文中我将以清晰简洁的方式来回答这些问题，Boosting通常用于弱学习，即没有分离白噪声的能力。第二，因为boosting会导致过拟合，所以我们需要在正确的时间点停止。

让我们试试把一个分类问题可视化

请看下面的图表：

我们从第一个箱线图开始。我们看到一条垂直线，这是我们的第一个弱学习模型。这时我们有3/10的误分类率。现在我们对3个误分类的样本分配更高的权重，此时，对它们分类非常重要。因此，垂直线向右边缘靠近。我们重复这个操作，然后以恰当的权重组合每个学习模型。