统计学习方法读书笔记（第一章）

2019年5月11日 218次阅读来源: gibyeng

监督学习的特点：训练样例是带有标签的。也就是人们已经知道应该如何划分成几种特定的类型。对于训练数据，人们能预测出准确的结果。
而无监督学习相反，人们本身不知道划分的结果，完全根据数据自身的特点分类。

每个输入数据是一个实例，由特征向量表示。

训练集由相应的输入与输出对确定。又称为样本、样本点。

输入与输出都为连续的称为回归问题。
输出是有限个离散的预测问题是分类问题。
输入与输出变量均为变量序列的预测问题为标注问题

监督学习假设输入变量X与输出变量Y遵循联合概率分布 P(X,Y).，训练数据与测试数据被看做依联合概率分布P(X,Y)独立同分布产生的。

模型确定了输入变量与输出变量的映射关系。学习的目的就是在于找到最好的这样的模型。假设空间由输入空间到输出空间的映射的集合。

方法 = 模型 + 策略 +　算法

又称代价函数，度量预测错误的程度。

用训练数据集的经验风险估计期望风险。
经验风险最小化（ERM）策略认为经验风险小的模型是最优模型。
而结构风险最小化（SRM）策略认为简单的结构比复杂结构更具有优势（防止过拟合），在ERM的基础上添加了惩罚项。模型越复杂，罚项就越大。

随着模型复杂度的增加，训练误差不断减小，但是测试误差确是先减小后增大。因此在选择模型的时候需要选择复杂度适当的。

正则化是结构最小化的具体实现。
一般有如下格式：

《统计学习方法读书笔记（第一章）》捕获.PNG

交叉验证
通过训练集训练模型，在测试集上评价模型的好坏。选择测试误差最小的模型。

理论上衡量模型对未知数据的预测能力，是学习方法本质上重要的性质。
现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。

    原文作者：gibyeng
    原文地址: https://www.jianshu.com/p/cd76c25bbf19
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。