深度学习利器：分布式TensorFlow及实例分析

2019年7月14日 187次阅读来源: AI前线

作者 | 武维
AI前线出品｜ ID：ai-front

TensorFlow发展及使用简介

2015年11月9日谷歌开源了人工智能系统TensorFlow，同时成为2015年最受关注的开源项目之一。TensorFlow的开源大大降低了深度学习在各个行业中的应用难度。TensorFlow的近期里程碑事件主要有：

2016年11月09日：TensorFlow开源一周年。

2016年09月27日：TensorFlow支持机器翻译模型。

2016年08月30日：TensorFlow支持使用TF-Slim接口定义复杂模型。

2016年08月24日：TensorFlow支持自动学习生成文章摘要模型。

2016年06月29日：TensorFlow支持Wide & Deep Learning。

2016年06月27日：TensorFlow v0.9发布，改进了移动设备的支持。

2016年05月12日：发布SyntaxNet，最精确的自然语言处理模型。

2016年04月29日：DeepMind模型迁移到TensorFlow。

2016年04月14日：发布了分布式TensorFlow。

TensorFlow是一种基于图计算的开源软件库，图中节点表示数学运算，图中的边表示多维数组（Tensor）。TensorFlow是跨平台的深度学习框架，支持CPU和GPU的运算，支持台式机、服务器、移动平台的计算，并从r0.12版本开始支持Windows平台。Tensorflow提供了各种安装方式，包括Pip安装，Virtualenv安装，Anaconda安装，docker安装，源代码安装。本文主要介绍Pip的安装方式，Pip是一个Python的包安装及管理工具。Linux系统下，使用Pip的安装流程如下：

yum install python-pip python-dev

export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.12.0rc0-cp27-none-linux_x86_64.whl

pip install –upgrade $TF_BINARY_URL

安装完毕后，TensorFlow会安装到/usr/lib/python2.7/site-packages/tensorflow目录下。使用TensorFlow之前，我们需要先熟悉下常用API。

tf.random_uniform([1], -1.0, 1.0)：构建一个tensor, 该tensor的shape为[1]，该值符合[-1, 1)的均匀分布。其中[1]表示一维数组，里面包含1个元素。

tf.Variable(initial_value=None)：构建一个新变量，该变量会加入到TensorFlow框架中的图集合中。

tf.zeros([1])：构建一个tensor, 该tensor的shape为[1], 里面所有元素为0。

tf.square(x, name=None)：计算tensor的平方值。

tf.reduce_mean(input_tensor)：计算input_tensor中所有元素的均值。

tf.train.GradientDescentOptimizer(0.5)：构建一个梯度下降优化器，0.5为学习速率。学习率决定我们迈向（局部）最小值时每一步的步长，设置的太小，那么下降速度会很慢，设的太大可能出现直接越过最小值的现象。所以一般调到目标函数的值在减小而且速度适中的情况。

optimizer.minimize(loss)：构建一个优化算子操作。使用梯度下降法计算损失方程的最小值。loss为需要被优化的损失方程。

tf.initialize_all_variables()：初始化所有TensorFlow的变量。

tf.Session()：创建一个TensorFlow的session，在该session种会运行TensorFlow的图计算模型。

sess.run()：在session中执行图模型的运算操作。如果参数为tensor时，可以用来求tensor的值。

下面为使用TensorFlow中的梯度下降法构建线性学习模型的使用示例：

《深度学习利器：分布式TensorFlow及实例分析》

分布式TensorFlow应用架构

2016年4月14日，Google发布了分布式TensorFlow，能够支持在几百台机器上并行训练。分布式的TensorFlow由高性能的gRPC库作为底层技术支持。TensorFlow集群由一系列的任务组成，这些任务执行TensorFlow的图计算。每个任务会关联到TensorFlow的一个服务，该服务用于创建TensorFlow会话及执行图计算。TensorFlow集群也可以划分为一个或多个作业，每个作业可以包含一个或多个任务。在一个TensorFlow集群中，通常一个任务运行在一个机器上。如果该机器支持多GPU设备，可以在该机器上运行多个任务，由应用程序控制任务在哪个GPU设备上运行。

常用的深度学习训练模型为数据并行化，即TensorFlow任务采用相同的训练模型在不同的小批量数据集上进行训练，然后在参数服务器上更新模型的共享参数。TensorFlow支持同步训练和异步训练两种模型训练方式。

异步训练即TensorFlow上每个节点上的任务为独立训练方式，不需要执行协调操作，如下图所示：

《深度学习利器：分布式TensorFlow及实例分析》

同步训练为TensorFlow上每个节点上的任务需要读入共享参数，执行并行化的梯度计算，然后将所有共享参数进行合并，如下图所示：

《深度学习利器：分布式TensorFlow及实例分析》

分布式TensorFlow 应用开发API主要包括：

tf.train.ClusterSpec({“ps”: ps_hosts, “worker”: worker_hosts})：创建TensorFlow集群描述信息，其中ps，worker为作业名称，ps_hosts，worker_hosts为该作业的任务所在节点的地址信息。示例如下：

《深度学习利器：分布式TensorFlow及实例分析》

tf.train.Server(cluster, job_name, task_index)：创建一个TensorFlow服务，用于运行相应作业上的计算任务，运行的任务在task_index指定的机器上启动。

tf.device(device_name_or_function)：设定在指定的设备上执行Tensor运算，示例如下：

《深度学习利器：分布式TensorFlow及实例分析》

分布式TensorFlow MNIST模型训练

MNIST是一个手写数字的图片数据库，可从网站http://yann.lecun.com/exdb/mnist/下载相关数据，其中的每一张图片为0到9之间的手写数字灰度图片，大小为28*28像素，如下图所示：

《深度学习利器：分布式TensorFlow及实例分析》

MNIST数据集主要包含训练样本60000个，测试样本10000个。图像数据主要为图片的像素数据，图像数据标签主要表示该图片的类别。由以下四个文件组成：

train-images-idx3-ubyte.gz （训练图像数据60000个）

train-labels-idx1-ubyte.gz （训练图像数据标签60000个）

t10k-images-idx3-ubyte.gz （测试图像数据10000个）

t10k-labels-idx1-ubyte.gz （测试图像数据标签10000个）

本文采用如下的结构对MNIST数据集进行分布式训练，由三个节点组成。ww01节点为Parameter Server，ww02节点为Worker0，ww03节点为Worker1。其中Parameter Server执行参数更新任务，Worker0，Worker1执行图模型训练计算任务，如下图所示。分布式MNIST训练模型在执行十万次迭代后，收敛精度达到97.77%。

《深度学习利器：分布式TensorFlow及实例分析》

在ww01节点执行如下命令，启动参数服务/job:ps/task:0：

python asyncmnist.py –ps_hosts=ww01:2222 –worker_hosts=ww02:2222,ww03:2222 –job_name=ps –task_index=0

在ww02节点执行如下命令，启动模型运算/job:worker/task:0：

python asyncmnist.py –ps_hosts=ww01:2222 –worker_hosts=ww02:2222,ww03:2222 –job_name=worker –task_index=0

在ww03节点执行如下命令，启动模型运算/job:worker/task:1：

python asyncmnist.py –ps_hosts=ww01:2222 –worker_hosts=ww02:2222,ww03:2222 –job_name=worker –task_index=1

分布式MNIST的训练模型如下：

《深度学习利器：分布式TensorFlow及实例分析》

梯度下降法在分布式TensorFlow中的性能比较分析

2016年谷歌在ICLR（the International Conference on Learning Representations） Workshop上发表了论文REVISITING DISTRIBUTED SYNCHRONOUS SGD。基于ImageNet数据集，该论文对异步随机梯度下降法（Async-SGD）和同步随机梯度下降法（Sync-SGD）进行了比较分析。

Dean在2012年提出了分布式随机梯度下降法，模型参数可以分布式地存储在不同的服务器上，称之为参数服务器（Parameter Server，PS），以及Worker节点可以并发地处理训练数据并且能够和参数服务通信获取模型参数。异步随机梯度下降法（Async-SGD），主要由以下几个步骤组成：

针对当前批次的训练数据，从参数服务器获取模型的最新参数。
基于上述获取到的模型参数，计算损失方程的梯度。
将上述计算得到的梯度发送回参数服务器，并相应地更新模型参数。

同步随机梯度下降法（Sync-SGD）与Sync-SGD的主要差异在于参数服务器将等待所有Worker发送相应的梯度值，并聚合这些梯度值，最后把更新后的梯度值发送回节点。

Async-SGD 的主要问题是每个Worker节点计算的梯度值发送回参数服务器会有参数更新冲突，一定程度影响算法的收敛速度。Sync-SGD算法能够保证在数据集上执行的是真正的随机梯度下降法，消除掉了参数的更新冲突。但同步随机梯度下降法同时带来的问题是训练数据的批量数据会比较大，参数服务器上参数的更新时间依赖于最慢的worker节点。

为了解决有些worker节点比较慢的问题，我们可以使用多一点的Worker节点，这样Worker节点数变为N+N*5%，N为集群Worker节点数。Sync-SGD可以设定为在接受到N个Worker节点的参数后，可以直接更新参数服务器上的模型参数，进入下一个批次的模型训练。慢节点上训练出来的参数是会被丢弃掉。我们称这种方法为Sync-SGD with backups。

2015年，Abadi使用TensorFlow的Async-SGD, Sync-SGD，Sync-SGD with backups训练模型对ImageNet的Benchmark问题进行了实验分析。要对该训练数据进行1000种图片的分类训练，实验环境为50到200个的worker节点，每个worker节点上运行k40 GPU。使用分布式TensorFlow后大大缩短了模型训练时间，Async-SGD算法实验结果如下，其中200个节点的训练时间比采用25个节点的运算时间缩短了8倍，如下图所示。

《深度学习利器：分布式TensorFlow及实例分析》

下图为50个Worker节点的Async-SGD, Sync-SGD，Sync-SGD with backups模型训练结果的比较。

《深度学习利器：分布式TensorFlow及实例分析》

从结果中可以看出增加2个backup节点，Sync-SGD with backups模型可以快速提升模型训练速度。同时Sync-SGD模型比Async-SGD模型大概提升了25%的训练速度，以及0.48%的精确度。随着数据集的增加，分布式训练的架构变得越来越重要。而分布式TensorFlow正是解决该问题的利器，有效地提升了大规模模型训练的效率，提供了企业级的深度学习解决方案。

作者简介

武维（微信：allawnweiwu）：西安交通大学博士，现为IBM Spectrum Computing 研发工程师。主要从事大数据，深度学习，云计算等领域的研发工作。

－全文完－

人工智能已不再停留在大家的想象之中，各路大牛也都纷纷抓住这波风口，投入AI创业大潮。那么，2017年，到底都有哪些AI落地案例呢？机器学习、深度学习、NLP、图像识别等技术又该如何用来解决业务问题？

2018年1月11-14日，AICon全球人工智能技术大会上，一些大牛将首次分享AI在金融、电商、教育、外卖、搜索推荐、人脸识别、自动驾驶、语音交互等领域的最新落地案例，应该能学到不少东西。目前大会8折报名倒计时，更多精彩可点击阅读原文详细了解。

http://t.cn/Rl2MftP

《深度学习利器：分布式TensorFlow及实例分析》

    原文作者：AI前线
    原文地址: https://zhuanlan.zhihu.com/p/31447350
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。