机器学习之初步概念

基本概念

机器学习的前提是数据,我们把数据的集合称为数据集’data set’,每条记录是一个样本(sample),每个样本有若干个属性(attribute)or特征(feature),对应的是其属性值(attribute value),属性组成的空间称作属性空间(attribute space),因此每个sample可以被称作一个特征向量(feature vector).属性个数称为样本的维数。
从数据中学习模型的过程被称为学习(learning)或训练(traning),训练时使用的数据称为训练集。我们还需要训练样本的“结果”信息:标记”label”,拥有了标记信息的”sample”,被称作“样例”(example)。所有标记的集合被称作“标记空间”(label space)或输出空间。
对于预测离散值问题,称作“分类”(classification),如果预测离散值,称作“回归”(regression)。
学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为预测样本(testing sample)
根据训练数据是否含有标记信息,学习任务可以被划分为两大类监督学习(supervised learning)无监督学习(unsupervised learning),分类和回归是前者代表,聚类是后者代表。
学得模型适用于新样本的能力,称为泛化(generalization)能力,具有强泛化能力的模型能很好的适用于整个样本空间。
独立同分布:通常假设样本空间中全体样本服从一个未知分布(distribution)D,我我们获取的每个样本都是独立的从这个分布上采样获得的。

模型评估和选择

学习器的实际预测输出与样本的真实输出之间的差异称为“误差(error)”,学习器在训练集上的误差称为训练误差(training error)or经验误差(empirical error),在新样本上的误差称为泛化误差(generalization error)
过拟合:学习器把训练集学得太好了,很可能把训练样本的一些特点当做了所有潜在样本都会具有的一些性质,导致泛化性能下降,称为过拟合(overfitting),相对的是欠拟合(underfitting)

参考书目:机器学习

    原文作者:superPershing
    原文地址: https://segmentfault.com/a/1190000008854282
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞