人脸识别 论文阅读(4)

1.人脸识别的瓶颈在于噪声
名称:The Devil of Face Recognition is in the Noise,商汤科技,ECCV 2018
用我的话说,这篇文章通过实验数据弄清了噪声的来源和后果,提出了3个清洗标签的策略,收集了一个clean并且wild的数据集IMDb Face。

概要:

在不断增长的数据集规模和丰富的网络结构及损失函数的大背景下,仍然对label的噪声source和consequence的理解有限,对此论文做出了以下贡献:

  1. 在流行的大规模数据集 MegaFace 和 MS-Celeb1M 条件下,得到手动清洗的子集,分别是32%和20%,已经可以达到相当的性能;(???具体来讲)
  2. 清洗前,分析标签噪声的属性;
  3. 收集一个干净的人脸识别数据集 IMDb-Face,数据集已开源在:https://github.com/fwang91/IMDb-Face
  4. 在IMDb上,研究不同类型噪声的联系,通过模拟噪声的方式:
  • label flip(错误地被给了数据集其他的身份);
  • outlier(错误的身份而且还不在数据集内);
  1. 研究提高数据清洁度的方法,包括数据标记策略对注释准确性的影响

1. 介绍

一般的用来替代大量有标注数据的方法有:

  • 通过搜索引擎(不过只针对名人),然后用自动或半自动方法清洗标签
  • 收集社交网络共享的人脸图像,引入带约束的聚类

但是以上方法会带来标签的噪声,图1展示了这个情况:
《人脸识别 论文阅读(4)》
每一行表示相同的身份,有的肉眼可以清洗,有的很难,MegaFace最后一行还展示了冗余的图像。

本文第一个目标是对source和consequence的理解,目的是设计更好的数据收集和清洗策略,于是提出了一些问题:

  • 清洗数据应该将噪声比例调整到多少?
  • 噪声和最终表现有什么关系?
  • 最好的标注人脸身份的策略是什么?

本文第二个目标是自己收集一个干净的人脸识别数据集,目的是帮助训练更好的模型以及理解噪声和模型性能之间的关系。

这个数据集叫IMDb-Face,包含了59K的名人图像,1.7M大小,来源是电影截图和IMDb网站的海报。包括每个名人下的各种照片个人资料,包括官方照片,生活照片和电影快照。

由于source 的不同,图像在scale,pose,lighting 和 occlusion 呈现出不同的变化,论文先仔细清理了数据集(多个身份存在一张图像的情况,提取了30个身份图像的一个子集,然后仔细选择某个确定身份的3张图像作为gallery images,剩下的图像作为query images),然后在query images注入噪声(20%的outliers)模拟损坏,观察到人脸识别的准确率迅速下降。做实验分析了不同标注方式的可靠性,发现标签准确性与时间相关,该发现有助于找到错误标签的source,然后设计更好的策略来平衡标注成本和标注准确性。

2.现有数据有多嘈杂?

我们首先介绍了人脸识别研究中流行的数据集以及估计各自的信噪比(signal-to-noise ratio,即有用信息和噪声的比值)。

观察信噪比,引申出一个目标:分析噪声分布。可能会给未来研究如何利用这些噪声分布提供线索。具体的操作是:

  1. 选择子集以便得知确切的噪声数量。MegaFace 2.7M, MS-Celeb-1M 3.7M。如图a所示。
  2. 手动将label分为三类:correct、doubtful、wrong
  3. 对于 CASIAWebFace 和 CelebFaces 数据集,采用30种身份去估计它们的信噪比,如图2a,下限乐观于将doubtful视为correct,上限悲观于将doubtful视为wrong
    《人脸识别 论文阅读(4)》
    图a 展示了噪声占full set 的比例;

进一步研究了两个大数据集的噪声分布,具体的操作是:

  1. 身份分类,如图2b,按身份的图像数量,建立六个bin;
  2. 绘制直方图以显示每个bin噪声的上限和下限,数据都表现为长尾分布,即大多数身份拥有非常少的图像。这种现象在MegaFace尤为明显,因为它使用自动形成的簇来确认身份,相同的身份可能分布在不同的簇中,每个簇的噪声较少,这个问题造成同一身份的图像冗余。

《人脸识别 论文阅读(4)》
图b 两条水平线标示了噪声的下限和上限。两条线之间即为doubtful数据。

结论:建议IMDbFace采用高信噪比,噪声低于全集的10%。

3. 建立一个 Noise-Controlled 人脸数据集

搜索引擎中收集图像的缺点:
1)往往都有足够照明的简单背景,并且目标处于近前方姿势
2)召回率低。召回率是用来度量有多少正例被预测正确的。
《人脸识别 论文阅读(4)》

标注人脸身份的三个策略:

  • 方案一:打框。选择3个gallery images 作为目标身份,然后从查询集中挑选出一张图片,这张图片可能包含多个人。如果目标身份出现在查询图像时,则人工打框;如果不那么确定,则在框上标注‘‘doubt”;如果目标身份不存在,则直接在查询图像上标注“no target”。重复直到把所有身份查询完毕。
  • 方案二:三选一。与方案一类似,选择3个gallery images 作为目标身份,随机选择3张查询图像,选择一张和目标身份相同的。同样可以标注“doubt”或者“no target”。重复直到把所有身份查询完毕。
  • 方案三:“yes” 或者 “no”。还是从查询中提取所有人脸,并根据它们和3个gallery images的相似性进行排名,再请人工判断“yes”或者“no”,允许回答“doubt”。重复直到把所有身份查询完毕。
    《人脸识别 论文阅读(4)》

我们使用“consensus”方法进行最终标注,三个人分别使用三种方案,则查询集的每张图片都可以得到9个标注,如果有4个标注始终指向相同的身份,则可以进行最终标注。

如何判断哪种方案最好?
《人脸识别 论文阅读(4)》
横座标假正率,分类错误的负样本占负样本的比例
纵座标真正率,分类正确的正样本占正样本的比例

由此可见,随着假正率的增大,方案一的真正率是最高的。
观察到方案三,假正率很小的时候,真正率也不高,这是因为人容易在轻松的任务中犯错。

建议使用方案一和方案二,实际上本文使用的是方案一来清理数据(回答了问题三)。
作用:估计IMDb 原始数据的噪声水平2.7 ± 4.5%,清理后可以降到2%以下
(回答了问题一)

4.实验

预处理: 裁剪(224*256)并对齐人脸,RGB通道分别减去平均值(移除图像的平均亮度值,关注图像内容而不是亮度,使得图像的整体明亮程度并不会影响检测图像中是什么物体)

1)ablation 消融实验,在IMDb上通过模拟噪声来观察随着噪声的增加模型性能的下降。

  • label flip ,随机扰动到IMDb-Face不正确的类别;
  • outliers,用MegaFace的label替换IMDb-Face。
  1. 损失函数:
  • Softmax Loss:模型初始化时最常用的,称作baseline;
  • Center Loss:减小类内距离;
  • A-Softmax Loss:在超球面上通过增大不同类别角度间隔来增大类间距离。
    《人脸识别 论文阅读(4)》
    由图7a、b,得到的结论:
  • 随着噪声增加可以观察到,label filp严重恶化了模型的性能,outliers似乎对模型性能影响不大;
  • 在干净的数据集上,A-Softmax显然取得更好的效果,但是有噪声的情况下,Softmax和Center Loss会更好。

由图7c,来自于Rolnick等人的实验发现,如果数据集中包含足够的干净数据,那么当数据被大量噪声稀释后,深度学习模型仍然可以对其进行适当的训练。它们在CIFAR10上达到了feasible的准确率,噪声:清洁数据甚至达到了20:1。
我们可以转移他们的灵感,具体的做法是:
从IMDb上抽取4个子集,分别包含1E5, 2E5, 5E5, 1E6的图像,分别用1倍、2倍、5倍的label flip的方式去稀释 。
由图7c,得到的结论:即使使用相同数量的干净数据,随着噪声的加入性能仍然差异巨大。可以推测干净数据的数量能在人脸识别中起关键作用,有两个原因:

  • 当前数据集,即使它很干净,仍然不足以应对人脸识别中的各种挑战,因此噪声很重要;
  • 噪声对于10000类身份分类比10类更致命。

图7回答了问题二

在两个现有的数据集上实验,进一步证明噪声的影响。
在MegaFace上做基准测试,评估指标是rank-1 identification accuracy。基准测试有一个gallery set(超过100万的图像)和一个probe set(由两个现有数据集Facescrub 和 FGNet 组成)组成,报告了FPR=10^(-6)的TPR。(????补充说明)

3)检查IMDb的有效性。通过在同样的训练条件下和其它数据集比较。
CelebFaces,CASIA-WebFace, MS-Celeb-1M(v1),MegaFace
后两个数据集比IMDb 大好几倍
《人脸识别 论文阅读(4)》
识别准确率证明了我们的数据集虽然规模较小,但是来源更有竞争力并且清洁度较高。
《人脸识别 论文阅读(4)》

4)体系结构比较。ResNet-50, ResNet-101 和
Attention-56。最终选择了Attention-56,因为它更好地达到了计算量和准确率的平衡。

  1. 人脸识别的反欺骗

概述

以前的反欺骗问题只是二元分类问题,不可解释,很难掌握欺骗线索(颜色失真、摩尔条纹、形状变形)且泛化不好,在这篇文章中我们讨论了辅助监督的重要性,增大判别力和泛化能力,期望学习到欺骗模式支持最终的二元决策。

目前的人脸欺骗即演示攻击(PA),包括了print attack、replay attack、mask attack等。相机/屏幕的质量也是一个关键因素。

辅助监督:
1)空间角度。活体人脸具有深度,例如鼻子比人脸的其它部位更接近相机。
2)时间角度。活体人脸的rPPG信号是可检测到的。

贡献:

  • 使用pixel-wise supervision学习CNN-RNN模型来估计人脸的深度,使用sequence-wise supervision 估计rPPG 信号 (心脏脉冲信号),两者被融合以区分活体和欺骗。
  • 采用一个人脸反欺骗数据集Spoof in the Wild,涵盖了一个大范围的照明,主题和姿势变化。SiW数据库由165个科目组成,6个欺骗媒体,以及4个涵盖各种变化(PIE)的session。我们的模型实现了内部和跨数据库测试的先进结果(具体???)。

准备工作

1)Texture-based Methods 基于纹理的方法。

点赞