监督学习简介

《监督学习简介》 戈黛娃夫人

监督学习
通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力

监督学习其实就是要有两个数据集,一个train,一个test。通过train研究变量间的关系,然后把模型套用到test中,预测结果

01、决策树
DT(决策树)构建一棵树,在节点按照某种规则(一般使用信息熵)来进行样本划分,实质是在样本空间进行块状的划分,主要用来分类,也有做回归,但更多的是作为弱分类器,用在model embedding中

02、随机森林
rf(随进森林),是由许多决策树构成的森林,每个森林中训练的样本是从整体样本中抽样得到,每个节点需要进行划分的特征也是抽样得到,这样子就使得每棵树都具有独特领域的知识,从而有更好的泛化能力;

例如之前的泰坦尼克号生存率的预测,采用随机森林预测乘客生存率

03、梯度提升决策树
gdbt,梯度提升决策树,实际上也是由多棵树构成,和rf不同的是,每棵树训练样本是上一棵树的残差,这体现了梯度的思想,同时最后的结构是用这所有的树进行组合或者投票得出,主要用在推荐、相关性等;

xgboost扩展和改进了gdbt,xgboost算法更快,准确率也相对高一些。在绝大多数的回归和分类问题上,XGBoost的实际表现都是顶尖的。
XGBoost更适用于变量数较少的表格数据,而深度学习则更适用于图像或其他拥有海量变量的数据。

例如公共自行车租借情况预测,采用xgboost完成对测试集中公共自行车租借情况的预测

xgboost与深度学习的比较

    原文作者:巴拉巴拉_9515
    原文地址: https://www.jianshu.com/p/a34760a82153
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞