监督学习简介

2019年5月11日 203次阅读来源: 巴拉巴拉_9515

《监督学习简介》戈黛娃夫人

监督学习
通过已有的训练样本（即已知数据以及其对应的输出）来训练，从而得到一个最优模型，再利用这个模型将所有新的数据样本映射为相应的输出结果，对输出结果进行简单的判断从而实现分类的目的，那么这个最优模型也就具有了对未知数据进行分类的能力

监督学习其实就是要有两个数据集，一个train，一个test。通过train研究变量间的关系，然后把模型套用到test中，预测结果

01、决策树
DT（决策树）构建一棵树，在节点按照某种规则（一般使用信息熵）来进行样本划分，实质是在样本空间进行块状的划分，主要用来分类，也有做回归，但更多的是作为弱分类器，用在model embedding中

02、随机森林
rf（随进森林），是由许多决策树构成的森林，每个森林中训练的样本是从整体样本中抽样得到，每个节点需要进行划分的特征也是抽样得到，这样子就使得每棵树都具有独特领域的知识，从而有更好的泛化能力；

例如之前的泰坦尼克号生存率的预测，采用随机森林预测乘客生存率

03、梯度提升决策树
gdbt，梯度提升决策树，实际上也是由多棵树构成，和rf不同的是，每棵树训练样本是上一棵树的残差，这体现了梯度的思想，同时最后的结构是用这所有的树进行组合或者投票得出，主要用在推荐、相关性等；

xgboost扩展和改进了gdbt，xgboost算法更快，准确率也相对高一些。在绝大多数的回归和分类问题上，XGBoost的实际表现都是顶尖的。
XGBoost更适用于变量数较少的表格数据，而深度学习则更适用于图像或其他拥有海量变量的数据。

例如公共自行车租借情况预测，采用xgboost完成对测试集中公共自行车租借情况的预测

    原文作者：巴拉巴拉_9515
    原文地址: https://www.jianshu.com/p/a34760a82153
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。