Face Aging with Contextual Generative Adversarial Nets

2019年5月5日 163次阅读来源: 马小李23

使用上下文对抗生成网络的人脸老化
摘要：
人脸老化——它对于输入的人脸给出老化的人脸——在多媒体研究中具有广泛的关注。最近很多基于条件对抗生成网络的方法取得的巨大的成功。他们可以生成图片拟合在每个单独的年龄组中的真实的人脸分布。但是这些方法不能获取到转换模式，比如说在相邻年龄组之间逐渐的形状和纹理的变化。本文中我们提出了一种新的上下文对抗生成网络（C-GANs）来特别地考虑转换模式。C-GANs由一个条件转换网络和两个分辨网络组成。条件转换网络使用几个特别设计的残差块来模拟老化过程。年龄分辨网络引导合成的人脸来拟合真实的条件分布。转换模式分辨网络是新的，旨在将真实的转换模式同假的区分出来。它被当做条件转换网络的额外正则项，来确保生成的图片拟合了对应的真实转换模式的分布。实验结果表明提出的框架与最先进的模型和真实的数据相比较，产生了感人的结果。我们也观察到对于跨年龄人脸确认问题的性能提升。
关键词：人脸老化，对抗生成网络，上下文模型
原文地址：https://arxiv.org/abs/1802.00237

文章中采用的是一个双分辨器单生成器的条件GAN的模型，其模型结构如下所示：

《Face Aging with Contextual Generative Adversarial Nets》文章整体模型架构

两个分辨器分别是分辨图片真伪的分辨器文中称作Age Discriminative Network，对应文章的3.3小节；分辨转换模式的分辨器文中称作Transition Pattern Discriminative Network，对应文章的3.4小节。一个生成器为条件GAN的类型，文中称作Conditional Transformation Network。
1.Age Discriminative Network
该分辨网络接收图片和对应年龄标签作为输入，输出判断该图片是否为伪造的结果。文中指出，年龄的标签和图片分别单独经过一次卷积，然后再连接在一起，送入该分辨网络。该网络的训练的loss为：

《Face Aging with Contextual Generative Adversarial Nets》

2.Transition Pattern Discriminative Network
该网络接收的是相邻年龄的图片对和年龄标签作为输入，令x(y)表示年龄为y的图片x，那么该网络接收的是(x(y)，x(y+1)，y)三元组作为输入，而图片x可能全部是真实图片，也可能是生成的图片，最终该网络判断给出该图片对，是否为真实的图片对。因而，该网络的训练的loss为：

《Face Aging with Contextual Generative Adversarial Nets》

Conditional Transformation Network
该网络接收人脸图片，以及需要生成的人脸图片的年龄标签。年龄标签为7维的向量，然后被扩充到与图片的空间维数一致（我的理解是，对于RGB图片，是宽长3，因而这样的图片对应的label也是3维的），同时标签中0被-1表示，原因是图片的数值范围是在[-1,1]区间范围内。与此同时，该生成器采用了残差网络的设计，最终的图片是特征图和原图结合起来生成的，具体的结构图下图所示，这样估计可以保证生成图既有feature和label的信息，同时也有原图的信息。
conditional transformation network

最终，整个网络的训练的Loss为：

《Face Aging with Contextual Generative Adversarial Nets》

这里的TV就是total variation的损失函数，用来平滑生成的图片的，见诸多篇论文中。对于这样的双分辨器，单生成器的网络架构，文章采用的是交替训练的方法，一次迭代中优化一个分辨器和生成器，另一次迭代中优化另一个分辨器和生成器。

实验部分
实验分成了定性的评估和定量的评估，定性的评估主要是以生成的图片，来给出一个直观的判断；同时也做了与一些明星ground truth的定性的比较分析。
定量的评估，设计了一个人评估的系统，给出三种生成图片，以此判断哪张结果最好。首先这个评估结果，虽然是量化分析，但是依旧是人评价的系统，带有一定主观性（不过现阶段很少有对于GAN生成图片好坏的评价指标，有些量化的指标也被指出不准确）；其次文中并没有详细说明给志愿者判断的问题的内容描述部分。
最具有说服力的定量分析，应该文中4.6小节给出的cross age face verification，实验的过程是，对于原始的图片对，是一张年轻的人脸和老年的人脸，这两张人脸之间年龄大于20；生成的图片对是，用原始图片对中年轻的人脸生成一张老龄化的人脸，然后与之前老化后的人脸组成生成图片对，采用基于center loss训练的人脸识别模型，来判断这样的人脸对是否属于同一个人。从实验的EER(the equal error rate)中可以看到这样的face aging模型生成的图片确实对于跨年龄的人脸识别有帮助，同时该方法的帮助最大。Figure11给出了FAR-FRR曲线，同一分类曲线下，不同数据对的FAR-FRR曲线，这表明了数据起了决定性作用，可以看到红色和绿色都比原始的图片对的蓝色曲线都低（这里估计有个小问题需要去查center loss based face verification那篇文章，就是FAR-FRR曲线中的接受率的阈值）。

最终总结下这篇文章的工作：首先采用的是之前有人提及的双分辨器的GAN网络结构（在之前论文中被称作双代理GAN），但是在整体架构没有创新的情况下，在生成器中采用了残差网络的结构，这是之前GAN结构中没有看到过的（至少我没有看到过）；其次是对于分辨器的创新，对于人脸老化的特定问题中，图片对中存在关系的原因，将有关系的图片对交给分辨器判断，以促进生成器学习到此类的相互关系，这种图片关系对的思路应该还可以应用于其他生成图片应用中；label归一化以及卷积处理是之前GAN的论文中没有看到过的处理，可能有利于生成器同时使用图片信息和输入的label信息；关于实验部分，现在仍然没有很好的定量分析GAN生成图片的方法，一般还是具体问题中，转换形式来进行判别，比如本文中的生成的图片提升了人脸识别率的对比。

    原文作者：马小李23
    原文地址: https://www.jianshu.com/p/71b6e9613e83
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。