今天来实现训练的功能,给ANN类添加一个train方法。
函数的参数第一个是输入的节点(inputs_list),数据类型是list;第二个参数是预期的输出节点的值(outputs_list),数据类型也是list。
首先,把两个参数传进来的list转换成numpy的array,转换后的大小是(list.size, 1)
然后,向上一篇文章一样,分别计算隐藏层和输出层,得到我们的输出(o_o)。
接着计算误差并反向传播。这里使用梯度下降的方式,误差函数是预期值与实际值的方差。这里直接给出梯度方程,即求误差函数相对于权重的斜率。
-(e_j)sigmoid(\sum_iw_{ij}o_i)(1-sigmoid(\sum_iw_{ij}o_i))o_i
ej表示下一层节点j的误差量;oi指上一层节点i的值。
在隐藏层到输出层的权重中ej为输出层的误差量eo=tj-oj
这里tj表示输出层节点j的期望值;oj表示输出层节点j实际值
在输入到隐藏的权重中ej按权重把隐藏层到输出层的误差量反向传播得到;
即ej=eh=who.T*eo
关于这个公式我会在系列文章最后更一篇详细解释。
def train(self, inputs_list, outputs_list):
# translation
i = np.array(inputs_list, ndmin=2).T
t = np.array(outputs_list, ndmin=2).T
# hidden
h_i = np.dot(self.wih, i)
h_o = self.a_f(h_i)
# output
o_i = np.dot(self.who, h_o)
o_o = self.a_f(o_i)
# error
o_e = t - o_o
h_e = np.dot(self.who.T, o_e)
# fix
#r * ( (E*o*(1-o)) * lo.T)
self.who += self.lr * np.dot(o_e * o_o * (1 - o_o), np.transpose(h_o))
self.wih += self.lr * np.dot(h_e * h_o * (1 - h_o), np.transpose(i))
最后说一句,权重的更新方式是减去梯度方程的值,因为梯度值为正意味着权重需要减少才能减少误差函数的值。需要注意的是代码还把梯度值乘上了学习速率,这样可以控制权重更新的幅度。
这样,我们便完成了训练部分的功能。接下来,我还会继续更新如何使用这个ANN类,来完成手写数字识别的任务。