统计学习方法读书笔记(第一章)

监督学习

监督学习的特点:训练样例是带有标签的。也就是人们已经知道应该如何划分成几种特定的类型。对于训练数据,人们能预测出准确的结果。
而无监督学习相反,人们本身不知道划分的结果,完全根据数据自身的特点分类。

输入数据

每个输入数据是一个实例,由特征向量表示。

训练集

训练集由相应的输入与输出对确定。又称为样本、样本点。

问题分类

输入与输出都为连续的称为回归问题。
输出是有限个离散的预测问题是分类问题。
输入与输出变量均为变量序列的预测问题为标注问题

联合概率分布

监督学习假设输入变量X与输出变量Y遵循联合概率分布 P(X,Y).,训练数据与测试数据被看做依联合概率分布P(X,Y)独立同分布产生的。

假设空间

模型确定了输入变量与输出变量的映射关系。学习的目的就是在于找到最好的这样的模型。假设空间由输入空间到输出空间的映射的集合。

三要素

方法 = 模型 + 策略 + 算法

损失函数

又称代价函数,度量预测错误的程度。

经验风险最小化与结构风险最小化

用训练数据集的经验风险估计期望风险。
经验风险最小化(ERM)策略认为经验风险小的模型是最优模型。
而结构风险最小化(SRM)策略认为简单的结构比复杂结构更具有优势(防止过拟合),在ERM的基础上添加了惩罚项。模型越复杂,罚项就越大。

过拟合

随着模型复杂度的增加,训练误差不断减小,但是测试误差确是先减小后增大。因此在选择模型的时候需要选择复杂度适当的。

正则化与交叉验证

正则化是结构最小化的具体实现。
一般有如下格式:

《统计学习方法读书笔记(第一章)》 捕获.PNG

交叉验证
通过训练集训练模型,在测试集上评价模型的好坏。选择测试误差最小的模型。

泛化误差

理论上衡量模型对未知数据的预测能力,是学习方法本质上重要的性质。
现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。

    原文作者:gibyeng
    原文地址: https://www.jianshu.com/p/cd76c25bbf19
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞