5TensorFlow战Kaggle“手写识别”最终章--达成99%准确率

2019年5月7日 126次阅读来源: AI二师兄

这是一个TensorFlow的系列文章，本文是第三篇，在这个系列中，你讲了解到机器学习的一些基本概念、TensorFlow的使用，并能实际完成手写数字识别、图像分类、风格迁移等实战项目。

文章将尽量用平实的语言描述、少用公式、多用代码截图，总之这将是一份很赞的入门指南。欢迎分享/关注。

上一篇文章，我们用CNN实现了手写识别

《5TensorFlow战Kaggle“手写识别”最终章--达成99%准确率》 CNN网络模型举例

一、改进方案

1 使用Keras框架，而不是用TensorFlow自己实现，提升编程效率
2 增加网络的深度，这里增加到了20层
3 每次卷积完之后，加入规范层
4 使用最新的SELU激活函数，这是Sepp Hochreiter最新发表在arXiv上的激活函数，Sepp是当年和Jürgen Schmidhuber 一起发明 LSTM 的神级人物。介绍参考这个链接：「自归一化神经网络」提出新型激活函数SELU

二、理论知识补充(最小知识集)

1）BatchNormalization 的计算原理，优缺点

为了避免对数据的感应不铭感，会对数据做处理，使得数据的变化范围不会太大，这个处理叫normalization预处理。Batch normalization 的 batch 是批数据, 把数据分成小批小批进行随机梯度下降. 而且在每批数据进行前向传递 forward propagation 的时候, 对每一层都进行 normalization 的处理。优点是可以避免数据对激活函数的饱和从而收敛到更好的结果，并且能减少训练时长。

2）rmsprop 优化器的原理，优缺点

RMSprop 是 Geoff Hinton 提出的一种以梯度的平方来自适应调节学习率的优化方法。
优点是，对于常见参数更新较小，自动更新，不用手动调节学习率
缺点是，因为公式中分母上会累加梯度平方，这样在训练中持续增大的话，会使学习率非常小，甚至趋近无穷小

3）池化层的计算原理

池化层是在几个数据中挑选出最能代表这个区域的，把一个区域简化成一个数值，可以取最大值、最小值、平均值。这样可以降低计算量，降低过拟合。

4）softmax与 sigmoid 激活函数的区别

sigmoid将一个real value映射到（0,1）的区间（当然也可以是（-1,1）），这样可以用来做二分类。
而softmax把一个k维的real value向量（a1,a2,a3,a4….）映射成一个（b1,b2,b3,b4….）其中bi是一个0-1的数值，b1到bn累加为1，然后可以根据bi的大小来进行多分类的任务，如取权重最大的一维。