谈及监督学习时，我们在谈什么？

2019年5月11日 108次阅读来源: AI搬运工

前些天看了一本名为Machine Learning for Humans的书，看到了一些关于监督学习的东西特分享过来~

好了，以下是正文……

纯属自己编译，如有不对的，还请各位大佬们指正~

监督学习，英文名称为Supervised Learning，是机器学习（Machine Learning）中的一部分，与之对应的有非监督学习，英文为Non-supervised Learning。

谈及监督学习时，我们通常都在谈什么呢？

首先，我们谈到的通常是包含有标签样本（training examples）的数据集（data set）。

举个例子，监督学习算法在对手写数字进行识别时，会先收集大量已被打上标签的手写数字图片。这些标签是干嘛用的呢？是用来表明每个图片代表的正确数字的。然后，监督学习算法会学习这些图片和他们关联的数字之间的关系，并利用所习得的这种关系将之前未收集到的新图片（没有标签）进行分类。

为了让大家更清楚明了监督学习的工作原理，我们来做个小实验，根据一个人所受教育的年限来预测他的年收入。为了表达得更正式一点，我们暂且建立这样一个模型：用X代表一个人所受教育的年限，用Y来代表他的收入，用f代表他们之间的函数关系。

《谈及监督学习时，我们在谈什么？》

X（输入值）=所受教育年限

Y（输出值）=年收入

f=X与Y之间的函数关系

ε=随机误差项(正或负)，平均为零

当然，你也可以提出一个更复杂的模型，比如说这些模型里包含了以下因素：学位类型、工作年限、学校层级等等。

举个例子——如果他们拥有学士学位或者更高的学位，他们的年收入可能是现在的1.5倍。”

但这种明确的规则程序并不适用于复杂的数据。例如通过此类方法来识别一张图片上的图案是不是猫，就不行了。

而监督机器学习呢，就是通过让计算机自己发现规则来解决这类问题。机器学习与人类学习的主要区别在于：机器学习是在计算机硬件上运行的，而且，通过计算机科学与统计学，机器学习最容易理解。而人类模式匹配是在生物大脑中发生的。

在监督学习中，机器试图通过学习算法，运行已标记的训练数据，来习得收入与所受教育的年限之间的关系。

在监督学习中，机器试图通过学习算法，从而学习到在带标签的训练集中，收入与所受教育年限之间的关系。通过这种方法习得函数关系后，只要我们知道一个人所受的教育年限X，就可以计算出他的收入Y。换句话说，我们可以将这个模型运用于未标记的测试数据，以此来估算Y的值。

监督学习的目标是：在给出X，未给出Y的情况下，尽可能精确预测到Y。

监督学习的两个主要任务分别为回归和分类。回归意指预测连续数值，比如说，这个房子会卖多少钱？；分类意指标记，比如说这个图是猫还是狗？

那么回归和分类具体到底是怎么回事儿呢？

且听下回分解~

    原文作者：AI搬运工
    原文地址: https://www.jianshu.com/p/496a896cc633
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。