深度学习几种优化算法的笔记-一句话理解各种优化算法

2019年5月9日 199次阅读来源: 拎着激光炮的野人

深度学习最全优化方法总结比较
这篇文章已经比较清楚了，这篇笔记主要帮助理解和记忆各种算法，无数学公式。

以前经常觉得，优化算法名字好难记，所以顺便把自己理解的名字的组合也写进来。

：）我承认标题党了，今天正好又要看一遍优化算法，所以干脆沉下心来，尽可能记住这几种优化算法，最好的方式就是用一句话来表达出这些优化算法。

没什么好说的

如其名，动量，把历史改变作为动量累加到当前梯度上。
动量+梯度

也是动量，先动量，根据动量后的值计算梯度更新。
先动量，求跳跃后的梯度

用所有梯度平方和后开根号除当前梯度，来反向调节更新

我猜是为了防止更新率过大的时候，防止震荡；更新率过小的时候，让梯度加速，当然也看的出来很多问题，至少不该使用所有的以前的梯度，这样，越训练到后面，越慢，到最后，受到以前梯度平方的影响，更新就非常慢了

adapt + gradient descent
适合处理稀疏梯度

以前的梯度平方衰减后累加开根号后来除现在的梯度

证明了我对adagrad的理解，无衰减累加梯度**2会过多的影响现在的取值，加上衰减后，以前的梯度的影响会渐渐消失，越近的梯度对现在的影响越大。

Adagrad delta版本
现在的默认参数，估计针对是归一化数据的，所以也证明了，对数据归一化非常重要，不然咋个以前的梯度都较大的话，现在还是训练越来越慢。

Adadelta的变体

其实没咋个看懂变体后公式中E的含义，猜测主要简化了计算，并且只计算最近一次的梯度变化么？

RMS均方根的意思

带有动量项的RMSprop

Ada + Momentum

带有学习率上限的Adam

带有Nesterov动量项的Adam

记录下《[深度学习最全优化方法总结比较]https://zhuanlan.zhihu.com/p/22252270)
》一文中作者的经验：

    原文作者：拎着激光炮的野人
    原文地址: https://www.jianshu.com/p/93e68cf0fb3a
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。