Robust LSTM-Autoencoders for Face De-Occlusion in the Wild

鲁棒的用于自然环境中的人脸遮挡去除的长短期记忆网络-自动编码器
摘要:
人脸识别技术近年来得到了显著的发展。但是,识别有部分遮挡的人脸对于现存的人脸识别技术依旧是个挑战,这在关于监控和安全的真实应用中是个迫切的需求。尽管很多研究工作致力于开发脸部去除遮挡的方法,但是他们中大多数工作仅仅在约束的条件下工作,比如所有的人脸来自一个事先定义的闭合集合。在本文中,我们提出了一个鲁棒的长短期记忆网络-自动编码(RLA)模型来高效的还原部分遮挡的人脸,即使他们是在自然的环境中。RLA模型由两个长短期记忆网络组件构成,它们分别用于遮挡鲁棒的脸部编码和玄幻的去除遮挡。第一个组件,被称作多尺度空间长短期记忆网络编码器,顺序地读取多尺度的脸部图块来输出潜在的表达,而遮挡鲁棒性归功于这样一个事实,遮挡仅仅影响一些图片块。LSTM双通道架构的解码器获取从编码器习得的表示,来同时地重构整个人脸和检测遮挡,并且借助LSTM,解码器将脸部去遮挡的任务分解成逐步地还原遮挡的部分。此外,为了最小化身份信息的损失并且保证在恢复的人脸上的人脸识别准确率,我们引入了身份保留的对抗训练方案来近一步的改善RLA。在有遮挡的合成和真是的人脸数据集上的大量实验无疑地表明我们提出的RLA在去除不同位置上的不同类型的脸部遮挡的有效性。提出的方法在提升部分遮挡人脸上的识别性能比起其他去除遮挡的方法有着更显著的性能提升。

全文地址:https://arxiv.org/abs/1612.08534

文章中提出的LSTM-AutoEncoder的架构如下图所示:

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》 LSTM-Autoencoder架构

其中包括一个spatial LSTM(又被称作multi-dimensional LSTM)读取输入的图片进行特征编码;一个双通道的LSTM解码器,用于对于输入的特征进行多次解码,以此来生成无遮挡的图片和遮挡区域的预测图片,最终用以合成无遮挡的图片。

1.Spatial LSTM Encoder

首先将图片划分成2*2的网格分块,一个图片分为四个部分,这样做的好处是,总有分块是没有遮挡的部分人脸,这样获取的feature可能不会被遮挡的部分污染。分块的图片输入的顺序是按照从上至下,从左至右的顺序。对于每个图片块xi,j(i和j代表其二维坐标),其输出由下式决定:

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》

其中那个x coarse表示的是原图的粗糙尺寸的图片(从架构的配图来看,这个变量好像就是缩放到原来的1/4的原图的整体),上式中F W,b为仿射变换,可以看到hi,j的输出,受到前序两个相邻位置的输出的影响。

2.双通道的LSTM解码器

这部分采用了最简单的LSTM的结构(了解LSTM,推荐阅读https://www.jianshu.com/p/9dc9f41f0b29)。这两个通道,一个通道是人脸去遮挡重构的通道,这个通道将上一步骤提取的特征作为输入,不断迭代(文中选择的是迭代8次)生成去遮挡的人脸;第二个通道是人脸遮挡部分检测通道,这个通道的输入出来上一步骤提取的特征,还有当前人脸去遮挡重构通道中的输出。对比两个通道的更新公式就很容易理解:
第一个通道更新的公式:

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》

第二个通道更新的式子:

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》

第二个遮挡检测的decoder的输出像素点被遮挡的概率,1表示该像素是被遮挡的部分,0表示该像素不是遮挡部分。

然后两个通道,通过下列式子结合起来获得最终的去遮挡的人脸图片:

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》

这个式子的意思是,遮挡部分用第一个重构通道生成的图片,非遮挡部分由原始图片的像素构成。

loss设计

1.重构loss:

就是重构的图片与原始的非遮挡的图片的平方差

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》

2.身份保留loss:

重构后的图片,被输入预训练的分类器,得到其分类概率,因而构造身份保留的loss如下

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》

这个loss指定的是重构图片Xi被分类成其对应标签yi的概率要尽可能的高。4.

3.对抗loss

引入对抗生成网络提升图片真实感,其loss没什么新意,定义如下

《Robust LSTM-Autoencoders for Face De-Occlusion in the Wild》

实现细节部分:

分类的CNN和对抗生成网络的Discriminator都用的GoogLeNet(见论文C. Szegedy, W. Liu, Y. Jia, and et al., “Going deeper with convolutions,” in Proc. IEEE Conf. Comp. Vis. Pattern Recogn. (CVPR), 2015, pp. 1–9.)实现

    原文作者:马小李23
    原文地址: https://www.jianshu.com/p/6246aceda380#comments
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞