训练第一个机器学习模型

2019年5月18日 171次阅读来源: 阿里云云栖社区

导语

在笔者的上一篇文章中[1]，使用了 k-NN 算法来识别手写字数据集，它的缺点是浪费存储空间且执行效率低。本文将使用决策树算法来解决同样的问题。相对 k-NN 算法，它更节约存储空间且执行效率更高。更重要的是，实施决策树算法的过程将训练算法并得到知识 —— 这是开发机器学习程序的一般步骤。一旦理解了这个工作流程，才有可能利用好机器学习这把利剑。

在本文中，笔者将训练一个决策树模型并使用该模型来识别手写字数据集。从中读者将可以了解到：如何构建学习模型？模型经过训练后学习到了怎样的知识？学习到的知识怎么表示和存储？又该如何利用这些学到的知识来解决同类的问题？

本文适合以下背景的读者阅读：

了解 MNIST 数据集[2]；

使用 Javascript 作为编程语言的开发者；

不需要具备算法能力和高数的背景：全文只有一道数学公式；

加上示例代码，全文总共 460 行，大约需要 20 分钟的阅读时间。

作者学识有限，如有疏漏，敬请指正。

生活中的决策

在开始构建决策树之前，必须了解决策树的工作原理。更详细的内容可以从参考资料的链接[2]中获得。

一个例子是，如何教育一个学龄前的儿童辨认猫和老虎？

《训练第一个机器学习模型》

我们会拿来一些示例照片，对照这些照片根据某些特征来训练小孩，告他 A 是猫，B 是老虎；

这些特征可能是，表面的颜色、耳朵的形状、体积的大小等等；

我们总是希望儿童能快速辨认出猫和老虎，毕竟假如他们真的遇到了老虎，则需要和老虎保持一定的距离；

其中一种筛选方法就是决策模型：把认为最重要的特征先进行甄别，然后到次要的，再到次次要的，以此来加速决策过程并得出判定。

作为一个示例，这里假设将识别老虎分为 2 个特征，分别是耳朵的形状和体积大小，那么已知的数据可能是这样的：

《训练第一个机器学习模型》

在程序中将使用数组的形式来表示上列数据，我把它称为「抓虎的数据集」：

《训练第一个机器学习模型》

根据已有的数据集（经验），猫和老虎的决策树则是这样：

《训练第一个机器学习模型》

这就是决策树的工作原理了。因为属于分类算法，所以决策树也可以推演到 MNIST 数据集的识别中。把 728 个点作为特征，对应的数字作为分类目标即可应用决策树算法。当然决策树算法不适合解决 MNIST 数据集这类特征为数值型的问题，但是因为它易于理解和实现，人们在通过解释后都有能力去理解决策树所表达的意义，因此作为机器学习中训练模型的算法来进行入门则非常合适。

那么决策树模型在程序中应该如何构建和表示呢？