[翻译5.3] Common Layers (下)

2017年8月26日整理第五章部分

此处给出本节的代码:https://github.com/Leechen2014/TensorFlow-for-Machine-Intelligence

相关的文件描述在github中给出。

PS:翻译来源:

http://shop.oreilly.com/product/9781939902351.do

《[翻译5.3] Common Layers (下)》

一、Pooling Layers (池化层)

Pooling层通过减小输入的大小来减少过度拟合度, 并提高性能。Pooling在对输入降低维度的同时会保留下重要信息给下一层。 可以使用tf.nn.conv2d来减小输入的大小,并且这些层计算的会更快。

2.1 tf.nn.max_pool

strides(步长)可以跳过tensor也可以在一个确定的kernel 大小的范围内找出最大值。当输入数据的强度与图像中的重要性相关时,这点知识会很有用。

《[翻译5.3] Common Layers (下)》 PS:看到灰色方框了没(这个往往称为接受域receptive field),这个就是一个kernel size =3*3的大小范围,这个里面的最大值是1.5.

我们会使用下面的示例代码去对相同例子进行建模。这段代码的目标是找到张量(tensor)内最大的值。

执行示例代码后的输出结果是:

PS:代码说明。。。。

layer_input是一个形状类似于tf.nn.conv2d或激活函数的输出的tensor。函数的目标是在tensor里面保留一个最大值。在本示例中,这个tensor的最大值是1.5;所以会返回一个和输入格式一样的tensor,且只保留1.5。如果内核设置为较小,则会在每个内核大小上跨越图像选择最大值。

最大池化(Max-pooling)通常使用2×2接收域(receptive field)(高度为2和宽度为2的内核)进行,通常写为“2×2 max-pooling operation”。使用2×2接收场的一个原因是它是在单次通过中可以完成的最小量的下采样(downsampling)。如果使用1×1接收场,则输出将与输入相同。

tf.nn.avg_pool

strides(跨越)张量并在内核大小下(PS也就是接受场)找出的每个深度的值计算平均数。当要减少整个内核的重要性的值时则很有用,例如输入张量的宽度和高度都很大,但深度很小。(PS这个给出了使用case了)

《[翻译5.3] Common Layers (下)》

使用下面的示例代码建模相同的示例。目标是找到张量内所有值的平均值。

《[翻译5.3] Common Layers (下)》

执行示例代码的输出是:

《[翻译5.3] Common Layers (下)》

对张量中的所有值进行求和,然后将它们除以张量数量的大小:

《[翻译5.3] Common Layers (下)》

这正是上面的示例代码,但是通过减小内核的大小,可以调整输出的大小。

小结PS

总得池化层有两种,一种是找出接受场的最大值并且返回,另一种是找出平均值。两种各有特点:

Normalization

归一化层(normalization layer)不是CNN唯一的,它并不常用。但是使用tf.nn.relu时,考虑输出的标准化是有用的。由于ReLU是无限制的,因此使用某种形式的规范化来识别高频特征通常是有用的。

tf.nn.local_response_normalization(tf.nn.lrn)

本地响应规范化(Local response normalization)是一种函数。根据TensorFlow文档中最佳解释:此函数是对输出进行整形的求和操作。

《[翻译5.3] Common Layers (下)》

归一化的一个目标是将输入保持在可接受数字的范围内。例如,将[0,1]范围内的输入归一化,其中可能值的整个范围被归一化以由大于或等于0.0且小于或等于1.0的数字表示。本地响应规范化在考虑每个值的重要性的同时对值进行了归一化。

Cuda-Convnet包括有关为什么使用本地响应归一化在一些CNN架构中有用的进一步的细节。ImageNet使用此层来对tf.nn.relu的输出进行归一化。

《[翻译5.3] Common Layers (下)》

执行示例代码的输出是

《[翻译5.3] Common Layers (下)》

在此示例代码中,图层输入格式为[batch,image_height,image_width,image_channels]。normalization将产生的输出降低到范围[-1.0, 1.0]内.

PS:在上一篇中讲到了一个激励函数relu ,可以看出这个函数在大于0的情况下会线性增加,这就导致了输出结果范围的问题。归一化操作可以解决这个问题。

High Level Layers

TensorFlow已经引入了high level layers(高级层),其目的在于使其更容易创建较为标准的layer definitions(层定义)。这些层不是必须要使用的,但它们有助于避免重复代码,而且会遵循最佳做法。开始使用时,这些图层会向图形添加一些非必需节点。在使用这些层之前,有必要先静静的听一些基础知识。

tf.contrib.layers.convolution2d

convolution2d层会执行与tf.nn.conv2d相同的逻辑,包括权重初始化、偏置初始化、可训练的可变输、,偏置添加和添加激活功能。这些步骤还没有涵盖到CNN,但我们应该是熟悉的。

kernel是一个可训练的变量(CNN的目标就是训练这个变量),

权重初始化用于在第一次运行时用值(tf.truncated_normal)填充内核。

其余的参数与以前使用的参数类似,只不过它们被简化为短版版本。

现在的kernel是一个简单的元组(1,1)来表示内核的高度和宽度,而不是声明完整的内核。

《[翻译5.3] Common Layers (下)》

示例代码的输出结果是:

《[翻译5.3] Common Layers (下)》

此示例针对一批单个图像设置完整的卷积。所有参数都是基于本章完成的步骤。与之前的做法最大的区别是tf.contrib.layers.convolution2d做了大量的设置,而不必再写全部。这可以为高级用户节省很多时间。

注意:如果输入数据是图像,则不应使用tf.to_float,而应使用tf.image.convert_image_dtype,这个函数会适当地更改用于描述颜色的值的范围。在这个示例代码中,使用了255的float值,这不是TensorFlow期望何时使用浮点值查看图像。TensorFlow希望使用描述为浮标的颜色的图像保持在范围内。

tf.contrib.layers.fully_connected

完全连接的层是每个输入连接到每个输出的层。这在许多架构中是一个相当普遍的层次,但是对于CNN,最后一层经常是完全连接的。tf.contrib.layers.fully_connected图层提供了一个很好的手段来创建最后一层,同时遵循最佳实践。

TensorFlow中典型的完全连接的层通常是tf.matmul(features,weight)+bias的格式,其中features(特征),weights(重量)和bias(偏差)都是tensor(张量)。这个short-hand层将做同样的事情,同时也考虑到了管理weights和bias张量所涉及的复杂性。

《[翻译5.3] Common Layers (下)》

实例的输出结果:

《[翻译5.3] Common Layers (下)》

该示例创建了完全连接的层并将输入tensor与输出的每个神经元相关联。对于不同的完全连接的层,还有很多其他参数可以进行调整。

总结高级层说白了就是可以在初始化等部分省很多事情省很多是事情


Layer Input

CNN架构的每层都都是有目的。了解high level很重要,如果不经常实践,他们很容易忘记。任何神经网络中的关键层是输入层,它(input layer)将原始输入送入CNN架构中进行训练和测试。对于对象识别和分类问题,输入层是一个接受图像的tf.nn.conv2d层。

接下来会使用真实图像去训练,而不是以tf.constant或tf.range变量的形式作为输入示例。

总结:后两节会设计CNN作为图像分类器

    原文作者:斐波那契的数字
    原文地址: https://www.jianshu.com/p/417a00e8372e
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞