《深度学习Ng》课程学习笔记02week2——优化算法

2019年5月5日 169次阅读来源: 小爷Souljoy

http://blog.csdn.net/u011239443/article/details/78066082

2.1 Mini-batch 梯度下降法

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.2 理解 mini-batch 梯度下降法

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.3 指数加权平均

对温度做指数加权平均曲线：

《《深度学习Ng》课程学习笔记02week2——优化算法》

β = 0.98 时，会得到更加平缓的曲线，如图绿色。
β = 0.5 时，会得到更加波动的曲线，如图黄色。

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.4 理解指数加权平均

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.5 指数加权平均的偏差修正

当在训练刚刚开始的时候，v会很小，为了修正这种偏差，我们可以使用以下方法：

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.6 动量梯度下降法（momentun）

梯度下降中，随着迭代次数的增加，我们需要将变化的幅度越来越小。这就使用到了动量梯度下降法：

《《深度学习Ng》课程学习笔记02week2——优化算法》

之所以叫动量梯度下降法，是因为从另外一个角度看，是在改变下降的速度：

《《深度学习Ng》课程学习笔记02week2——优化算法》

v’ = 摩擦力影响比率*原来速度v + 加速

2.7 RMSprop

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.8 Adam 优化算法

Adam 就是 momentun 和 RMSprop的结合：

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.9 学习率衰减

减小幅度还可以用学习率衰减：

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.10 局部最优的问题

当特征维度非常大时，我们的最优化问题通常不是一个局部极小点或者局部极大点，而是鞍点。
当 Hessian 是正定的（所有特征值都是正的），则该临界点是局部极小点。当 Hessian 是负定的（所有特征值都是负的），这个点就是局部极大点。在多维情况下，实际上我们可以找到确定该点是否为鞍点的积极迹象（某些情况下）。如果 Hessian 的特征值中至少一个是正的且至少一个是负的，那么 x 是 f 某个横截面的局部极大点，却是另一个横截面的局部极小点。

《《深度学习Ng》课程学习笔记02week2——优化算法》

走去鞍点的平缓区的方法是使用如Adam、momentun 和 RMSprop算法。

《《深度学习Ng》课程学习笔记02week2——优化算法》

    原文作者：小爷Souljoy
    原文地址: https://www.jianshu.com/p/3faf8b581e97
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。