有朋友留言说看不懂 推导过程, 所以在此 我再补充一下。
我这个的补充 是基于 https://zhuanlan.zhihu.com/p/24801814 这里面的 对推导过程中容易歧义的地方的一些补充。
定义 术语:
计算 对 标签 3 4 的输入值
计算对标签 3 4 的 输出值
“”我们当然是希望这个值越小越好。这也是我们为什么要进行训练,调节参数,使得最终的损失最小。这就用到了我们的反向传播算法,实际上反向传播就是梯度下降法中。””
这个反向传播 翻译成人话 就是求导。 求出最终 损失 C 对每个 权重 的导数。 然后将这些导数 逼近 最小值 。 最终达成结果。
下面 我们 计算推导过程。
因为每个节点输出值 = 激活函数(输入值) 所以我们在此先把本文的激活函数求导过程计算出来。
计算对各个权值的导数
以上 就是整个推导过程。 刚开始看不懂。 因为数学忘完了。 现在高数补了上来。 原先看着不懂的 也懂了