对于学习率与梯度下降的通俗总结：

2024年5月8日 159次阅读来源: 杰克带元芳

针对原始的样本（1,2）
针对线性回归的函数 y=kx
对应的损失函数是 y=2kx^2,
那我们的方向就是希望最小化这个损失函数，得到最终的k值，然后再代入到
原始的线性函数中，那具体应该如何在最小化损失函数的时候得到对应的k值呢？
方法一：对于损失函数求导，然后令导数等于0，得到对应的k值，有时候并不能直接解出来，并且这种方式可能是局部最优；
方法二：采用梯度下降与学习率的方法去求得最后的k值，明确梯度下降中的梯度
实际指的是损失函数的斜率，初始对于k设定一个值例如0.3，然后将k值与样本中的x值代入到损失函数中，得到损失函数的y值就是差距值，如果这个差距值符合要求就可以，但是太大的话可能就需要不断的去调节这个k值，那新的k值如何获得呢，对应的公式如下：
k1=k+at，
其中k1就是新的k值，k是初始设定的那个k值，而其中的a就是学习率，一般可以设定0.01，对于学习率的设定，如果设定的太小就会导致最终收敛太慢，而如果设定的太大的话，可能就会错过最小值点，因此需要设定合适，而其中的t就是对应算是函数的斜率，得到的方式就是对损失函数进行求导，然后将样本中的x值与初始k值代入到对应的其中得到斜率，得到新的k值，然后再将新的k值和x值代入到损失函数中，看下函数的差值是否在那个区间内。
总结：梯度下降其实就是斜率不断的下降，最终希望是斜率为0对应的就是在谷底的时候得到对应的k值，就是最好的k值。

    原文作者：杰克带元芳
    原文地址: https://blog.csdn.net/rms1800201760/article/details/91463502
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。