监督学习之分类算法

2019年5月11日 189次阅读来源: AI搬运工

在已标签的训练数据中构建分类模型，并在此基础上，对新数据进行分类。这就是分类算法要解决的问题。

分类算法的准确性，取决于以下三个方面：1）所选算法的有效性；2）算法的运用方式；3）所用训练数据的有用性。

谈到分类算法，不可避免我们会谈到逻辑回归（Logistic Regression）和支持向量机（Support Vector Machine）。接下来，我们就来好好讲一讲~

逻辑回归: 0还是1?

逻辑回归（logistic regression)又称逻辑回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。

作为分类算法的一种，逻辑回归用于计算分类目标变量Y归属于某个特定分类的概率值。

虽然逻辑回归通常被用在二元分类中。但是，我们也可以对多元问题进行分类，例如，手写数字识别。

如何利用逻辑回归模型的输出做出决策？

逻辑回归模型看起来就像是一个S型曲线，在X值给出的情况下，可以计算出P(Y=1)。

《监督学习之分类算法》 .jpg

为了预测出Y的值——是否是垃圾邮件？是否患癌？是否欺诈？等等——我们需要设置一个阈值。比如说，当我们设置的模型判定这封邮件是垃圾邮件的可能性高于70%时，才会将它标记为垃圾邮件。那么当可能性低于70%时，它就不会被判定为垃圾邮件。

这个阈值通常取决于你对FP(false positives,将负类预测为正类数)和FN(false negatives,将正类预测为负类数)的容忍度。比如说，在诊断癌症时，我们对FN（即把病人患癌的事实预测为未患癌症的结果）的容忍度比较低，原因在于，即使病人患癌的几率很小，我们也必须进行进一步检查以确定他是否患有癌症。也就是说，假设病人实际上患癌了，却被诊断出没有患癌症（也就是我们通常所说的误诊），由于我们对FN的容忍度比较低，所以需要进一步对病人进行检查，这个时候，我们更希望得到的结果是：检测出病人患了癌症。

另外，关于欺诈性贷款申请，人们对FP的接受度也更高些，尤其是针对小额贷款。一方面，是因为审查成比较高，另一方面，小额贷款申请并没有必要付出额外的运营成本，甚至与那些被标记为需要进一步处理的非欺诈性申请者产生摩擦。这样反而会得不偿失。

使用逻辑回归时，如何最小化损失函数？

在逻辑回归中，损失函数是最基本的衡量方法，可以衡量出当真实答案为0时，你的预测值为 1的频率。反之亦然。

《监督学习之分类算法》 .jpg

这是一个正则化的损失函数（cost function）。当你看到这么长的公式时可千万别被吓到了。我们可以将其分解成不同的数据块，然后去理解它。

第一个数据块为data loss（数据丢失），举个例子，模型预测值和事实值之间的差异有多大？第二个数据块为正则化损失（regularizationloss），比如说，针对大量严重影响特定特征的参数的模型，我们进行了多大的惩罚。

我们将利用梯度下降法使损失函数最小化。我们已经建立了逻辑回归模型来将分类预测变得尽可能准确。

支持向量机（SVMs）

支持向量机同逻辑回归解决的是相同的问题，并产生类似的结果。

支持向量机可解决问题包括：

1. 这个图上的是猫还是狗？

2. 这条评论是正能量的还是负能量的？

3. 这些二维平面的点是红色还是蓝色？

关于支持向量机，我也曾看到过一篇详尽的文章，对SVMs进行了详细的分析，原文链接请戳：https://mp.weixin.qq.com/s/YbGxhG-IoOpqx2Wbbzf52Q

——END——

大家好，我是AI搬运工

致力于将国外的AI好文，翻译成大家都懂的中国话！

原文来源：Machine Learning for Humans

往期回顾：
01 谈及监督学习时，我们在谈什么？
02 监督学习之回归分析法：预测连续数值

以上内容为AI搬运工本人翻译，如有错误，欢迎指正。

    原文作者：AI搬运工
    原文地址: https://www.jianshu.com/p/be1e4adb15ff
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。