TensorFlow入门(五)tf.contrib.learn的输入函数

Building Input Functions with tf.contrib.learn

这个教程将指引你构建tf.contrib.learn的输入函数(input functions).

Custom Input Pipelines with input_fn

用tf.contrib.learn训练网络时,可能会传递特征和目标数据到fit,evaluate,predict节点中,这里是上一节的示例:

training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)
test_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename=IRIS_TEST, target_dtype=np.int, features_dtype=np.float32)
...

classifier.fit(x=training_set.data,
               y=training_set.target,
               steps=2000)

当要求的数据操作不是很多时,这样做是可行的,但是如果有更过的特征,就会用到定制的输入函数来抽象逻辑。

Anatomy of an input_fn

下面的代码描述了输入函数的基本框架:

def my_input_fn():

    # Preprocess your data here...

    # ...then return 1) a mapping of feature columns to Tensors with
    # the corresponding feature data, and 2) a Tensor containing labels
    return feature_cols, labels

输入函数的主题包括了预处理输入数据的逻辑,比如通过规范化来清洗数据。

输入函数必须返回最终的特征数据和目标数据。

feature_cols是对应特征数据张量的键值对的字典。labels是目标值。

Converting Feature Data to Tensors

如果你的特征或目标诗句是pandas dataframe或numpy array,你需要先将它转换为张量。

对于连续的数据,你可以用tf.constant来构建

feature_column_data = [1, 2.4, 0, 9.9, 3, 120]
feature_tensor = tf.constant(feature_column_data)

对于稀疏矩阵来说,你需呀转换为sparseTensor,有三个参数:

  • dense_shape,张量的形状
  • indices,张量中非0元素的下标
  • values,一个一维的张量,在indices中的对应值

下面的代码定义了一个3行5列的sparseTensor,index[0,1]为6,[2,4]为0.5.

sparse_tensor = tf.SparseTensor(indices=[[0,1], [2,4]],
                                values=[6, 0.5],
                                dense_shape=[3, 5])

它表示了这样的数据:

[[0, 6, 0, 0, 0]
 [0, 0, 0, 0, 0]
 [0, 0, 0, 0, 0.5]]

Passing input_fn Data to Your Model

在训练时feed数据,你需要传递输入函数到input_fn参数来构建fit节点:

classifier.fit(input_fn=my_input_fn, steps=2000)

注意,input_fn同时提供了特征和目标数据,代替了x参数和y参数。不能同时传递input_fn和x,y参数.

注意input_fn参数接收的是函数对象my_input_fn,而不是函数调用my_input_fn(),这意味着如果你按照下列代码传递数据,将会导致TypeError.

classifier.fit(input_fn=my_input_fn(training_set), steps=2000)

当然你也可以使用warpper function,functools.parptial或者lambda来传递输入函数。如下:

def my_input_function_training_set():
  return my_input_function(training_set)

classifier.fit(input_fn=my_input_fn_training_set, steps=2000)
classifier.fit(input_fn=functools.partial(my_input_function,
                                          data_set=training_set), steps=2000)
classifier.fit(input_fn=lambda: my_input_fn(training_set), steps=2000)

同样地,你可以用相同的输入函数来evaluate或predict。

这样的做法增强了代码的可维护性,无需捕捉x和y形成不同的变量(x_train, x_test, y_train, y_test)。

    原文作者:迅速傅里叶变换
    原文地址: https://www.jianshu.com/p/b25df460d49e
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞