《深度学习Ng》课程学习笔记02week2——优化算法

http://blog.csdn.net/u011239443/article/details/78066082

2.1 Mini-batch 梯度下降法

《《深度学习Ng》课程学习笔记02week2——优化算法》
《《深度学习Ng》课程学习笔记02week2——优化算法》

2.2 理解 mini-batch 梯度下降法

《《深度学习Ng》课程学习笔记02week2——优化算法》
《《深度学习Ng》课程学习笔记02week2——优化算法》
《《深度学习Ng》课程学习笔记02week2——优化算法》

2.3 指数加权平均

对温度做指数加权平均曲线:

《《深度学习Ng》课程学习笔记02week2——优化算法》

β = 0.98 时,会得到更加平缓的曲线,如图绿色。
β = 0.5 时,会得到更加波动的曲线,如图黄色。

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.4 理解指数加权平均

《《深度学习Ng》课程学习笔记02week2——优化算法》
《《深度学习Ng》课程学习笔记02week2——优化算法》

2.5 指数加权平均的偏差修正

当在训练刚刚开始的时候,v会很小,为了修正这种偏差,我们可以使用以下方法:

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.6 动量梯度下降法(momentun)

梯度下降中,随着迭代次数的增加,我们需要将变化的幅度越来越小。这就使用到了动量梯度下降法:

《《深度学习Ng》课程学习笔记02week2——优化算法》
《《深度学习Ng》课程学习笔记02week2——优化算法》

之所以叫动量梯度下降法,是因为从另外一个角度看,是在改变下降的速度:

《《深度学习Ng》课程学习笔记02week2——优化算法》

v’ = 摩擦力影响比率*原来速度v + 加速

2.7 RMSprop

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.8 Adam 优化算法

Adam 就是 momentun 和 RMSprop的结合:

《《深度学习Ng》课程学习笔记02week2——优化算法》

2.9 学习率衰减

减小幅度还可以用学习率衰减:

《《深度学习Ng》课程学习笔记02week2——优化算法》
《《深度学习Ng》课程学习笔记02week2——优化算法》

2.10 局部最优的问题

当特征维度非常大时,我们的最优化问题通常不是一个局部极小点或者局部极大点,而是鞍点。
当 Hessian 是正定的(所有特征值都是正的),则该临界点是局部极小点。当 Hessian 是负定的(所有特征值都是负的),这个点就是局部极大点。在多维情况下,实际上我们可以找到确定该点是否为鞍点的积极迹象(某些情况下)。如果 Hessian 的特征值中至少一个是正的且至少一个是负的,那么 x 是 f 某个横截面的局部极大点,却是另一个横截面的局部极小点。

《《深度学习Ng》课程学习笔记02week2——优化算法》

走去鞍点的平缓区的方法是使用如Adam、momentun 和 RMSprop算法。

《《深度学习Ng》课程学习笔记02week2——优化算法》

    原文作者:小爷Souljoy
    原文地址: https://www.jianshu.com/p/3faf8b581e97
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞