打印一下梯度
print('before backward ---------------------------------------')
print(seq2seq.encoder.gru.weight_hh_l0.grad)
loss.backward()
print('after backward ---------------------------------------')
print(seq2seq.encoder.gru.weight_hh_l0.grad)
纪念一下之前的一些疑惑