对于学习率与梯度下降的通俗总结:

针对原始的样本(1,2)
针对线性回归的函数 y=kx
对应的损失函数是 y=2kx^2,
那我们的方向就是希望最小化这个损失函数,得到最终的k值,然后再代入到
原始的线性函数中,那具体应该如何在最小化损失函数的时候得到对应的k值呢?
方法一:对于损失函数求导,然后令导数等于0,得到对应的k值,有时候并不能直接解出来,并且这种方式可能是局部最优;
方法二:采用梯度下降与学习率的方法去求得最后的k值,明确梯度下降中的梯度
实际指的是损失函数的斜率,初始对于k设定一个值例如0.3,然后将k值与样本中的x值代入到损失函数中,得到损失函数的y值就是差距值,如果这个差距值符合要求就可以,但是太大的话可能就需要不断的去调节这个k值,那新的k值如何获得呢,对应的公式如下:
k1=k+at,
其中k1就是新的k值,k是初始设定的那个k值,而其中的a就是学习率,一般可以设定0.01,对于学习率的设定,如果设定的太小就会导致最终收敛太慢,而如果设定的太大的话,可能就会错过最小值点,因此需要设定合适,而其中的t就是对应算是函数的斜率,得到的方式就是对损失函数进行求导,然后将样本中的x值与初始k值代入到对应的其中得到斜率,得到新的k值,然后再将新的k值和x值代入到损失函数中,看下函数的差值是否在那个区间内。
总结:梯度下降其实就是斜率不断的下降,最终希望是斜率为0对应的就是在谷底的时候得到对应的k值,就是最好的k值。

    原文作者:杰克带元芳
    原文地址: https://blog.csdn.net/rms1800201760/article/details/91463502
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞