学习率a的计算标准

当学习率a非固定时,因为梯度下降是找《学习率a的计算标准》的最小值,那么,在《学习率a的计算标准》《学习率a的计算标准》给定的前提下,即寻找《学习率a的计算标准》的最小值,即

《学习率a的计算标准》

进一步,如果h(α)可导,局部最小值处的α
满足:

《学习率a的计算标准》

对于该二次近似函数:《学习率a的计算标准》

《学习率a的计算标准》

两种方法:

1、线性搜索(Line Search)(最简单)     

二分线性搜索(Bisection Line Search)
 不断将区间[α1, α2]分成两半,选择端点异号
的一侧,知道区间足够小或者找到当前最优学
习率。

2、回溯线性搜索(Backing Line Search)

基于Armijo准则计算搜素方向上的最大步
长,其基本思想是沿着搜索方向移动一个较
大的步长估计值,然后以迭代形式不断缩减
步长,直到该步长使得函数值f(x k +αd k )相
对与当前函数值f(x k )的减小程度大于预设的
期望值(即满足Armijo准则)为止。

《学习率a的计算标准》

二者异同:

二分线性搜索的目标是求得满足h‘(α)≈0的
最优步长近似值,而回溯线性搜索放松了对
步长的约束,只要步长能使函数值有足够大
的变化即可。
 二分线性搜索可以减少下降次数,但在计算
最优步长上花费了不少代价;回溯线性搜索
找到一个差不多的步长即可。

    原文作者:Toky_min
    原文地址: https://blog.csdn.net/Toky_min/article/details/81839216
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞