maxout network的TensorFlow实现

1.原理

maxout作为一种独特的激活函数,来源于paper Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., & Bengio, Y. (2013). Maxout networks. arXiv preprint arXiv:1302.4389。这种激活函数提出来,是为了解决dropout方法优化不方便,和准确率不高的问题(见论文摘要部分)。那么为了理解maxout的原理话,首先需要了解dropout方法。dropout的方法其实描述起来很简单,就是在训练过程中,某一层的节点,有一定的概率被舍弃,因此,对于每一个批次的训练,可能都是对应的不同的网络,这样的操作,来防止在神经网络的训练过程中出现的过拟合现象。一张图很容易就理解dropout的结构:

《maxout network的TensorFlow实现》 dropout网络结构

上图中左边的是没有dropout情况下的输出,而右边则是有dropout的输出。其实现起来也很简单,对于某个节点的输出有如下公式:

《maxout network的TensorFlow实现》

而这里pi就是这个节点被保留的概率,而当一个节点输出为0的话,自然这个节点在本次的梯度下降的更新中不会被更新权重,这样本次训练中就放弃了该节点。训练完成后,所有节点的保留概率被设置为1来使用。因而对于某个节点而言,某些样本并没有参与到其训练过程中,从而避免过拟合的发生。

而maxout是位于dropout输出层之前的,一个由多层隐藏层构成的输出结构。在maxout的论文中,给出了maxout网络的定义式如下:

《maxout network的TensorFlow实现》

其中x是一个d维(或者最后一维维度为d)的输入,zij=XTW…ij+bij,而W是一个dmk维的矩阵,b是一个m*k维的矩阵,W和b都是可学习的参数,通过这个公式,我们大致可以知道maxout网络的输出,是一组最大值,但是这个理解仍然不是很直观,而下面的一张图(来源于http://www.slideshare.net/stjunya/maxout-networks ),给出了maxout网络的直观的理解:

《maxout network的TensorFlow实现》 maxout网络结构

从这张图中可以看出,其实maxout网络本质上是几个隐藏节点,由W来表示,从图中并不是那么直观,但是从W的权重的维度可以知道,其实际上是x输入给了几个由多个隐藏节点组成的网络,然后得到输出后,每个维度上找最大的输出。
更简单的举个例子,将W分解成W1,W2,W3……Wk,显然每个Wi都表示一层隐藏层,这里就有k个隐藏层,所以O1,O2,Oi……Ok对应的输出就是Oi=XWi,需要注意,这个时候的Oi的维度是dm维度,同时,其实最终的输出也是dm维度的,而这个时候我们有k个dm的向量,那么最终输出中的某一维,就是这k个中对应的那个维度上最大值。

2.TensorFlow中的maxout的实现

在最新的TensorFlow的1.4版本中,有maxout的实现,其函数为tf.contrib.layers.maxout,但是我并没有怎么看懂这个实现,如果有看懂的可以交流下。在之前版本中(我使用的是1.1),并没有maxout的实现,上述讲了那么多,可能依旧不是很清晰,但是写成代码确实很简单,代码实现如下,其中x为输入,z为输出,其他参数都按照上述解释的命名一致:

def maxout(x, k, m):
    d = x.get_shape().as_list()[-1]

    W = tf.Variable(tf.random_normal(shape=[d, m, k]))
    b = tf.Variable(tf.random_normal(shape = [m, k]))
    z = tf.tensordot(x, W, axes=1) + b
    z = tf.reduce_max(z, axis=2)

    return z

参考资料:
http://blog.csdn.net/hjimce/article/details/50414467
http://www.cnblogs.com/tornadomeet/p/3428843.html

    原文作者:马小李23
    原文地址: https://www.jianshu.com/p/b0a328726681
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞