[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

2019年5月5日 191次阅读来源: 少侠阿朱

导读
这篇文章是汤晓鸥，王晓刚团队的作品，收录于CVPR2016，可能又点老了，不过，对还没入门的我来说，看一看还是有收益的。文章主要说两个方面：其一，发布了一个比较大的数据集——DeepFashion（包含超过80万的图像，带有属性，衣服关键点和同一件衣服在不同场景中的标注）；其二，提出一个深度模型——FashionNet，用于服饰检索。

1.Introduction

想要做深度学习，第一个会遇到的问题就是数据不够。在一份分类，属性预测，服饰检索这个领域里，前人已有些工作，但是数据集不是不公开就是数据集太小。另一方面，服饰检索会遇到几个挑战：1，衣服款式，文理，剪裁多种多样;2，服饰存在变形，和遮掩；3，服饰一般有很多不同的场景。比如展柜里，网上商店。没有一个强大的数据集，很难推动这个研究的发展，并且很难对比各个算法的优劣。因此，本文提供了一个比较大型的数据集——DeepFashion。这个数据集有3个特点：1，全面，数据集中的图片包含了丰富的信息，其中有类别，属性，关键点，和不同场景中的同一款衣服的标注（cross-domain pair correspondences）；2，规模大，超过80万的图片，是前人数据集的两倍。3，开放，数据集对外开放。

2.The DeepFashion Dataset

2.1 图像来源

这部分主要讲述图像的来源。数据集有两个来源：1，购物网站；2，Google Image；

2.2 图像的标注

数据集主要包含一下几个标注。

50个类别，1000个属性，其中属性分成5个组（texture, fabric, shape, part, and style），下图展示了一些样例。
关键点，比如对于上衣，有六个关键点，分别在领子左右，袖子左右，下摆左右。
映射对（Pair Annotation）不同场景中的同一件衣服对，比如，网店的，街上拍的，给出对应关系。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

2.3 Benchmark

主要从三个方面来评价算法的表现。

类别和属性的预测
In-Shop衣物检索。这个是用网店的衣物图去检索同样来源网店的图片。
Consumer-to-Shop衣物检索。这个是根据消费者子集拍的照片去检索网店的衣物。这个比较有挑战。也是最有应用价值的点。

3. Our Approach

网络结构
FashionNet使用VGG-16作为基础网络，然后，在最后一层接上3个分支，red，green，blue。如下图所示。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》网络示意图

红色分支，用于提取图像的全局特征。

绿色分支，用于提取关键点的特征。

上面两个特征进行融合，然后用于后面的分类，属性预测和triplet训练（衣服pair的训练）。

蓝色分支，用于特征点的定位，并给出特征点是否可见（补充一点，数据集在标注的时候，即使特征点被遮挡，也不会被标出来，但是会指明被遮挡。）

Forword Pass
前向计算时，分三步走：

对于输入先计算蓝色分支，得到预测关键点的位置。
将预测的关键点信息用于绿色分支，提取关键点的特征，这里有一个关键点poolin 层。下图给出。
全局特征和关键点特征进行融合，concate，然后用于分类，和属性分类。

关键点Pooling层如下：

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

Backword Pass
反向传播时，考虑5个损失函数的加权：1.关键点的回归loss，2.关键点是否可见的softmax loss，3.类别的softmax loss，4.属性的交叉损失，5.同一件衣服的triplet loss。
训练时，把蓝色分支作为主要任务，红色分支和绿色分支作为辅助任务。所以，关键点的损失和关键点是否可见的损失，将会被加重。

4. Experiments

实验部分主要对比了两个方法。WTBI（where to buy it）和DARN（Dual Attribute-aware Ranking Network）

4.1 Results

Cagegory Classification
通过实验，文章对类别分类总结出三点规律：

FashionNet远远超过WTBI和DARN。这说明，加入了关键点信息有助于分类。
当将衣物关键点替换成人体姿势或者人体关键点时，表现下降了6-9个点。再一次说明衣物关键点的有效性。
使用大越多的属性，分类的准确率越好。使用1000个属性会比使用500个属性要好。

Attribute Prediction
同样，属性分类也得益于关键点。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

In-Shop Clothes Retrieval
在这个任务上也可以看到，关键点对图像检索的作用也是相当明显的。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

Consumer-to-Shop Clothes Retrieval
虽然这种情况下的表现比上面in-shop低不少，但是关键点的加入效果显著。所以知道为啥把关键点作为主要任务了吧。当然也有可能正是因为关键点作为主要任务，才能在最终效果中体现出如此重要的作用。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

4.2 进一步分析

然后作者做了一些围绕关键点的其他实验。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 10

上图10，左边是不同关键点的检测率。右边表明属性（attributes）的加入能提升关键点的检测。毕竟有些属性描述了关键点，比如“fringed-hem”（流苏下摆）。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 11

而图11左边则展示了，尺度变化带来的挑战比姿势带来的挑战更大。右边展示了几个类别的检索精度。
至此，本文已经结束。从这篇论文中，我们学到了一个如何提取一个有效的特征，与及图像的标注，大小，衣物的类别，姿态对图像检索效果会有的影响。

好，今天的分享就到这里。后期会继续写关于图像检索的论文分享。晚安，各位。
——少侠阿朱 2017.12.05于深圳。

转载注明处处呗。简书

    原文作者：少侠阿朱
    原文地址: https://www.jianshu.com/p/c599d0c2bd74#comments
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。