【深度学习】深度学习常用优化方法

2024年5月12日 238次阅读来源: LogM

作者：LogM

文章中的数学公式若无法正确显示，请参见：正确显示数学公式的小技巧

1. SGD（随机梯度下降）

$$ g_t = \bigtriangledown_{\theta_{t-1}} f(\theta_{t-1}) $$

$$ \Delta\theta_t = -\eta*g_t $$

$$ m_t = \mu*m_{t-1}+g_t $$

$$ \Delta\theta_t = -\eta*m_t $$

$$\nu_t = \nu_{t-1} + g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \eta$$

$$\nu_t = \mu * \nu_{t-1} + (1-\mu) * g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \eta$$

RMSprop 是 AdaGrad 的升级版，区别是 $\nu_t$ 的计算方式：RMSprop 是移动平均，而 AdaGrad 是累加，越加越大。

$$\nu_t = \mu * \nu_{t-1} + (1-\mu) * g_t*g_t$$

$$\Delta\theta_t = \frac{g_t}{\sqrt{\nu_t+\epsilon}} * \sqrt{\Delta \hat\theta_{t-1}^2}$$

$$\hat\theta_{t}^2 = \mu * \hat\theta_{t-1}^2 + (1-\mu) * \Delta\theta_t * \Delta\theta_t$$

$$ m_t = \beta_{1}m_{t-1} + (1-\beta_1)g_t $$

$$ \nu_t = \beta_{2}\nu_{t-1} + (1-\beta_2)g_t^2 $$

$$ \Delta\theta_t = \frac{\hat m_t}{\sqrt{\hat\nu_t+\epsilon}} * \eta $$

$$ \hat m_t = \frac{m_t}{1-\beta_1^t},\space\space \hat\nu_t = \frac{\nu_t}{1-\beta_2^t} $$

Adam 可以看做是将 momentum 和 RMSprop 的思想融合了起来。

    原文作者：LogM
    原文地址: https://segmentfault.com/a/1190000019682517
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。