xgboost slide（一）

2019年5月11日 313次阅读来源: 快乐的小飞熊

本文主要是对陈天奇的ppt《introduction to boosted tree》的理解。

《xgboost slide（一）》

概括：
（1）监督学习的主要概念
（2）回归树和组合
（3）GB
（4）总结

《xgboost slide（一）》

监督学习的一些组成元素：
*符号：xi表示的是第i个训练样本
*模型：给定的输入xi进行预测，得到yi^
(1)线性模型：包括线性回归和逻辑回归
(2)预测值在不同的任务上有不同的解释：
（a）线性回归：yi^就是预测值
（b）逻辑回归：sigmoid函数可以预测正实例的概率
（c）其他
*参数：对于线性模型，w是我们要从数据中学习的参数

《xgboost slide（一）》

1.目标函数是由两部分组成的，一个是训练误差，一个是正则项。
2.在训练数据上的损失：
（1）MSE
（2）logistic 损失
3.正则化：模型复杂度
（1）L2范式
（2）L1范式

《xgboost slide（一）》

上下文知识点整合：
（1）ridge回归：线性模型，MSE，L2正则
（2）lasso回归：线性模型，MSE，L1正则
（3）逻辑回归：线性模型，逻辑损失，L2正则
将模型、参数、目标函数做到概念上的分离，具有工程效益
对于ridge回归和logit回归实现梯度下降，由于损失函数不同，所以求导后的结果也不同。具体见我的整理《正则项浅析》

《xgboost slide（一）》

1、为啥在目标函数中要包含两个部分
2、优化训练误差，逐步确定预测模型
拟合训练数据，接近训练数据也就是接近潜在的分布
3、优化正则项，简化模型
简化模型意味着在将来的预测中有较小的方差，能够使预测稳定，增强其泛化性能

    原文作者：快乐的小飞熊
    原文地址: https://www.jianshu.com/p/30e3adaf5f20
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。