训练深度学习网络时,在损失函数上加上正则项是防止过拟合的一个重要方法,下面介绍如何在tensorflow中使用正则项。本文主要介绍了两种常用的加入正则化项的方法,分别对应两种不同的变量初始化方法。不论哪种方法,tensorflow中对参数使用正则化都分为两步。
1.创建一个正则化方法
2.将这个正则化方法应用到变量上
下面我们来分别介绍一下两种方法,看看这两步具体是怎么执行的。
第一种方法对应tf.get_variable()变量初始化方法。先来看一下tf.get_variable()函数。
tf.get_variable(
name,
shape=None,
dtype=None,
initializer=None,
regularizer=None,
...
)
可以看到有一个regularizer参数,该参数需要传入的实参,就是第一步中创建的正则化方法。具体怎么创建呢,往下看。
regularizer = tf.contrib.layers.l2_regularizer(scale=0.1) #scale代表正则化系数的值
tf中通过tf.contrib.layers.l2_regularizer()创建一个正则化方法,此处是L2正则化。创建完后,将该方法作为参数传入“regularizer”,就意味着该变量进行了L2正则化,经过这两步,就实现了L2正则化。
下面举一个具体的栗子,来看看tf.contrib.layers.l2_regularizer()究竟做了什么。
import tensorflow as tf
sess=tf.Session()
weight_decay=0.1
tmp=tf.constant([0,1,2,3],dtype=tf.float32)
l2_reg=tf.contrib.layers.l2_regularizer(weight_decay)
a=tf.get_variable("I_am_a",regularizer=l2_reg,initializer=tmp)
#上面代码的等价代码
'''
a=tf.get_variable("I_am_a",initializer=tmp)
a2=tf.reduce_sum(a*a)*weight_decay/2;
tf.add_to_collection(tf.GraphKeys.REGULARIZATION_LOSSES,a2)
'''
sess.run(tf.global_variables_initializer())
keys = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES)
for key in keys:
print("%s : %s" %(key.name,sess.run(key)))
print (sess.run(a))
l2_loss=loss + tf.add_n(keys)
输出:
I_am_a/Regularizer/l2_regularizer:0 : 0.7
[ 0. 1. 2. 3.]
上面代码首先定义了一个L2正则化方法:l2_reg=tf.contrib.layers.l2_regularizer(weight_decay),然后将该方法应用到变量a上:a=tf.get_variable(“I_am_a”,regularizer=l2_reg,initializer=tmp) ,就完成了对参数a的L2正则化。这两行的等价代码如下,首先定义a变量:a=tf.get_variable(“I_am_a”,initializer=tmp),然后将a进行正则化处理:a2=tf.reduce_sum(a*a)*weight_decay/2,最后将处理后的变量加入tf.GraphKeys.REGULARIZATION_LOSSES集合,所有经过正则化处理的变量都会加入这个集合:tf.add_to_collection(tf.GraphKeys.REGULARIZATION_LOSSES,a2)。对变量执行完L2正则化后,利用tf.get_collection()函数将所有正则化后的变量取出来放入一个列表:keys = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES),将该列表中的值加起来,再加到loss上,就完成了整个正则化过程:l2_loss=loss + tf.add_n(keys)。
总结一下,当使用tf.get_variable()作为变量初始化方法时,加入正则化基本步骤如下:
1.首先定义一个regularizer,scale参数代表正则化系数
l2_reg=tf.contrib.layers.l2_regularizer(scale)
2.调用tf.get_variable()函数创建一个变量,将上一步定义的l2_reg作为参数传进去
weights = tf.get_variable(
name="weights",
regularizer=l2_reg,
...
)
3.定义加入了正则化的损失loss
reg_variables = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES)
loss += tf.add_n(reg_variables)
再来看一下第二种方法。我们在tf中定义变量,除了tf.get_variable()函数,还可以使用tf.Variable()函数,该函数中没有regularizer参数,没办法直接传参,这时候就需要我们手动将想要正则化的变量加入某个集合。刚才我们说使用tf.get_variable()函数定义的正则化的变量会自动加入tf.GraphKeys.REGULARIZATION_LOSSES集合,使用tf.Variable()函数时,我们需要手动把变量加入GraphKeys.WEIGHTS集合。下面看具体栗子。
W_2 = tf.Variable(tf.random_normal([784, 100]))
W_3 = tf.Variable(tf.random_normal([100, 10]))
tf.add_to_collection(tf.GraphKeys.WEIGHTS, W_2)
tf.add_to_collection(tf.GraphKeys.WEIGHTS, W_3)
regularizer = tf.contrib.layers.l2_regularizer(scale)
reg_term = tf.contrib.layers.apply_regularization(regularizer)
loss = loss + reg_term
可以看到与之前代码的主要不同就是需要通过tf.add_to_collection()函数将需要正则化的变量手动加入tf.GraphKeys.WEIGHTS集合,然后通过tf.contrib.layers.apply_regularization()函数实现正则化。
总结一下,当使用tf.Variable()函数作为变量初始化方法时,加入正则化基本步骤如下:
1.定义一个变量
W = tf.Variable(tf.random_normal(3))
2.将该变量加入tf.GraphKeys.WEIGHTS集合
tf.add_to_collection(tf.GraphKeys.WEIGHTS, W)
3.对tf.GraphKeys.WEIGHTS集合中所有变量进行正则化并求和,加入loss
regularizer = tf.contrib.layers.l2_regularizer(scale)
reg_term = tf.contrib.layers.apply_regularization(regularizer)
loss = loss + reg_term
注意tf.contrib.layers.apply_regularization(regularizer, weights_list=None)函数其实有两个参数,第一个是正则化方法,第二个是想要执行正则化方法的变量列表,如果为None,则默认取tf.GraphKeys.WEIGHTS中的weight,这就是我们将需要正则化的变量加入该集合的原因,也可以加入别的集合,只要在函数中指明要正则化的变量集合名字即可。
附:tf.add_to_collection(),tf.get_collection()和tf.add_n()的用法
tf.add_to_collection(name, value) 用来把一个value放入名称是‘name’的集合,组成一个列表。
tf.get_collection(key, scope=None) 用来获取一个名称是‘key’的集合中的所有元素,返回的是一个列表,列表的顺序是按照变量放入集合中的先后; scope参数可选,表示的是名称空间(名称域),如果指定,就返回名称域中所有放入‘key’的变量的列表,不指定则返回所有变量。
tf.add_n(inputs, name=None), 把所有 ‘inputs’列表中的所有变量值相加,name可选,是操作的名称。
下面再通过几个小例子感受一下这三个函数的作用。
import tensorflow as tf
v1 = tf.get_variable(name='v1', shape=[1], initializer=tf.constant_initializer(1))
tf.add_to_collection('output', v1) # 把变量v1放入‘output’集合中
v2 = tf.get_variable(name='v2', shape=[1], initializer=tf.constant_initializer(2))
tf.add_to_collection('output', v2)
v3 = tf.get_variable(name='v3', shape=[1], initializer=tf.constant_initializer(3))
tf.add_to_collection('output', v3)
with tf.Session() as sess:
sess.run(tf.initialize_all_variables())
print (tf.get_collection('output')) # 获取'output'列表内容
print (sess.run(tf.add_n(tf.get_collection('output')))) # tf.add_n把列表中所有内容一次性相加
输出结果:
[<tf.Variable 'v1:0' shape=(1,) dtype=float32_ref>, <tf.Variable 'v2:0' shape=(1,) dtype=float32_ref>, <tf.Variable 'v3:0' shape=(1,) dtype=float32_ref>]
[ 6.]
第一个“print”输出了“output”集合中的变量,可以看出是“v1”,“v2”,“v3”,这里注意,将“output”改成“variables”,去掉(或者不去掉)tf.add_to_collection()函数,都会输出相同的结果,具体看代码。
import tensorflow as tf
v1 = tf.get_variable(name='v1', shape=[1], initializer=tf.constant_initializer(1))
#tf.add_to_collection('output', v1) # 把变量v1放入‘output’集合中
v2 = tf.get_variable(name='v2', shape=[1], initializer=tf.constant_initializer(2))
#tf.add_to_collection('output', v2)
v3 = tf.get_variable(name='v3', shape=[1], initializer=tf.constant_initializer(3))
#tf.add_to_collection('output', v3)
with tf.Session() as sess:
sess.run(tf.initialize_all_variables())
print (tf.get_collection('variables')) # 获取'variables'列表内容
print (sess.run(tf.add_n(tf.get_collection('variables')))) # tf.add_n把列表中所有内容一次性相加
输出结果:
[<tf.Variable 'v1:0' shape=(1,) dtype=float32_ref>, <tf.Variable 'v2:0' shape=(1,) dtype=float32_ref>, <tf.Variable 'v3:0' shape=(1,) dtype=float32_ref>]
[ 6.]
没有查到相关资料,我是这样理解的。如果没有使用tf.add_to_collection()将变量加入某个具体的集合,那么tf.get_collection()函数传入“variables”作为实参,默认会将所有变量取出。就算使用了tf.add_to_collection()函数,无论将变量加入几个不同的集合,只要传入“variables”参数也会取出所有变量。
import tensorflow as tf
v1 = tf.get_variable(name='v1', shape=[1], initializer=tf.constant_initializer(1))
tf.add_to_collection('output', v1) # 把变量v1放入‘output’集合中
v2 = tf.get_variable(name='v2', shape=[1], initializer=tf.constant_initializer(2))
tf.add_to_collection('output', v2)
v3 = tf.get_variable(name='v3', shape=[1], initializer=tf.constant_initializer(3))
tf.add_to_collection('input', v3) #改为“input”
with tf.Session() as sess:
sess.run(tf.initialize_all_variables())
print (tf.get_collection('variables')) # 获取'variables'列表内容
print (sess.run(tf.add_n(tf.get_collection('variables')))) # tf.add_n把列表中所有内容一次性相加
输出结果:
[<tf.Variable 'v1:0' shape=(1,) dtype=float32_ref>, <tf.Variable 'v2:0' shape=(1,) dtype=float32_ref>, <tf.Variable 'v3:0' shape=(1,) dtype=float32_ref>]
[ 6.]
以上。
参考:
[Tensorflow]L2正则化和collection【tf.GraphKeys】 – vcvycy的专栏 – CSDN博客