机器学习基本概念

2024年1月17日 113次阅读来源: 机器学习

1. 机器学习的定义

[Mitchell, 1997]对机器学习给出了一个形式化的定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

2. 机器学习的基本概念

特征向量（feature vector）：特征向量是样本的特征属性的集合。
标记（label）：标记是一个模型要输出的目标。
维数（dimensionality）：维数代表数据特征向量的维度。
样本空间（sample space）：样本空间代表某个问题的所有可能性的集合。
训练样本（training sample）：训练样本是一条用来训练的数据，包括一些用来输入的特征向量和一个输出的标记。
训练集（training set）：训练集是一个包含多条训练样本的集合。
测试样本（testing sample）：测试样本和训练样本类似，不过测试样本是用来测试用的。
测试集（testing set）：测试集是一个包含多条测试样本的集合。
训练（training）：训练是通过训练数据，模型进行学习的过程。
测试（testing）：测试是用来评判模型好坏的过程。
预测（prediction）：预测是用来使用模型对未见过的数据进行分类或回归的过程。
监督学习（supervised learning）：监督学习是带有标记的问题。
无监督学习（unsupervised learning）：无监督学习是不带有标记的问题。
分类（classification）：标签值只有有限个类别的问题。
回归（regression）：标签值有无限个值的问题。
分布（distribution）：所有的样本都是服从自己的一种未知分布，我们的任务是采样的时候尽量让训练样本分布和未知分布相同，这样训练出来的模型才会有比较好的泛化能力。
独立同分布（iid，independent and identically distributed）：指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布

3. 基本原则

奥卡姆剃刀（Occam’s Razor）：若有多个假设与观察一致，则选择最简单的一个。
没有免费的午餐（No Free Lunch Theorem, NFL）：没有一种算法比随机胡猜的效果好。
NFL定理意义在于，脱离具体问题，空范的谈论什么算法更好，没有意义！必须针对具体的学习问题，探讨算法的相对优劣。
学习算法的归纳偏好是否和问题相匹配，往往起到决定性的作用。

    原文作者：机器学习
    原文地址: https://www.cnblogs.com/huangyc/p/9686071.html
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。