maxout network的TensorFlow实现

2019年5月7日 321次阅读来源: 马小李23

1.原理

maxout作为一种独特的激活函数，来源于paper Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., & Bengio, Y. (2013). Maxout networks. arXiv preprint arXiv:1302.4389。这种激活函数提出来，是为了解决dropout方法优化不方便，和准确率不高的问题（见论文摘要部分）。那么为了理解maxout的原理话，首先需要了解dropout方法。dropout的方法其实描述起来很简单，就是在训练过程中，某一层的节点，有一定的概率被舍弃，因此，对于每一个批次的训练，可能都是对应的不同的网络，这样的操作，来防止在神经网络的训练过程中出现的过拟合现象。一张图很容易就理解dropout的结构：

《maxout network的TensorFlow实现》 dropout网络结构

上图中左边的是没有dropout情况下的输出，而右边则是有dropout的输出。其实现起来也很简单，对于某个节点的输出有如下公式：

《maxout network的TensorFlow实现》

而这里pi就是这个节点被保留的概率，而当一个节点输出为0的话，自然这个节点在本次的梯度下降的更新中不会被更新权重，这样本次训练中就放弃了该节点。训练完成后，所有节点的保留概率被设置为1来使用。因而对于某个节点而言，某些样本并没有参与到其训练过程中，从而避免过拟合的发生。

而maxout是位于dropout输出层之前的，一个由多层隐藏层构成的输出结构。在maxout的论文中，给出了maxout网络的定义式如下：

《maxout network的TensorFlow实现》

其中x是一个d维（或者最后一维维度为d）的输入，zij=XTW…ij+bij，而W是一个dmk维的矩阵，b是一个m*k维的矩阵，W和b都是可学习的参数，通过这个公式，我们大致可以知道maxout网络的输出，是一组最大值，但是这个理解仍然不是很直观，而下面的一张图（来源于http://www.slideshare.net/stjunya/maxout-networks ），给出了maxout网络的直观的理解：

《maxout network的TensorFlow实现》 maxout网络结构

从这张图中可以看出，其实maxout网络本质上是几个隐藏节点，由W来表示，从图中并不是那么直观，但是从W的权重的维度可以知道，其实际上是x输入给了几个由多个隐藏节点组成的网络，然后得到输出后，每个维度上找最大的输出。
更简单的举个例子，将W分解成W1，W2，W3……Wk，显然每个Wi都表示一层隐藏层，这里就有k个隐藏层，所以O1，O2，Oi……Ok对应的输出就是Oi=XWi，需要注意，这个时候的Oi的维度是dm维度，同时，其实最终的输出也是dm维度的，而这个时候我们有k个dm的向量，那么最终输出中的某一维，就是这k个中对应的那个维度上最大值。

2.TensorFlow中的maxout的实现

在最新的TensorFlow的1.4版本中，有maxout的实现，其函数为tf.contrib.layers.maxout，但是我并没有怎么看懂这个实现，如果有看懂的可以交流下。在之前版本中（我使用的是1.1），并没有maxout的实现，上述讲了那么多，可能依旧不是很清晰，但是写成代码确实很简单，代码实现如下，其中x为输入，z为输出，其他参数都按照上述解释的命名一致：

def maxout(x, k, m):
    d = x.get_shape().as_list()[-1]

    W = tf.Variable(tf.random_normal(shape=[d, m, k]))
    b = tf.Variable(tf.random_normal(shape = [m, k]))
    z = tf.tensordot(x, W, axes=1) + b
    z = tf.reduce_max(z, axis=2)

    return z

参考资料：
http://blog.csdn.net/hjimce/article/details/50414467
http://www.cnblogs.com/tornadomeet/p/3428843.html

    原文作者：马小李23
    原文地址: https://www.jianshu.com/p/b0a328726681
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。