[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations

导读
这篇文章是汤晓鸥,王晓刚团队的作品,收录于CVPR2016,可能又点老了,不过,对还没入门的我来说,看一看还是有收益的。文章主要说两个方面:其一,发布了一个比较大的数据集——DeepFashion(包含超过80万的图像,带有属性,衣服关键点和同一件衣服在不同场景中的标注);其二,提出一个深度模型——FashionNet,用于服饰检索。

1.Introduction

想要做深度学习,第一个会遇到的问题就是数据不够。在一份分类,属性预测,服饰检索这个领域里,前人已有些工作,但是数据集不是不公开就是数据集太小。另一方面,服饰检索会遇到几个挑战:1,衣服款式,文理,剪裁多种多样;2,服饰存在变形,和遮掩;3,服饰一般有很多不同的场景。比如展柜里,网上商店。没有一个强大的数据集,很难推动这个研究的发展,并且很难对比各个算法的优劣。因此,本文提供了一个比较大型的数据集——DeepFashion。这个数据集有3个特点:1,全面,数据集中的图片包含了丰富的信息,其中有类别,属性,关键点,和不同场景中的同一款衣服的标注(cross-domain pair correspondences);2,规模大,超过80万的图片,是前人数据集的两倍。3,开放,数据集对外开放。

2.The DeepFashion Dataset

2.1 图像来源

这部分主要讲述图像的来源。数据集有两个来源:1,购物网站;2,Google Image;

2.2 图像的标注

数据集主要包含一下几个标注。

  • 50个类别,1000个属性,其中属性分成5个组(texture, fabric, shape, part, and style),下图展示了一些样例。
  • 关键点,比如对于上衣,有六个关键点,分别在领子左右,袖子左右,下摆左右。
  • 映射对(Pair Annotation)不同场景中的同一件衣服对,比如,网店的,街上拍的,给出对应关系。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

2.3 Benchmark

主要从三个方面来评价算法的表现。

  • 类别和属性的预测
  • In-Shop衣物检索。这个是用网店的衣物图去检索同样来源网店的图片。
  • Consumer-to-Shop衣物检索。这个是根据消费者子集拍的照片去检索网店的衣物。这个比较有挑战。也是最有应用价值的点。

3. Our Approach

网络结构
FashionNet使用VGG-16作为基础网络,然后,在最后一层接上3个分支,red,green,blue。如下图所示。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 网络示意图

红色分支,用于提取图像的全局特征。

绿色分支,用于提取关键点的特征。

上面两个特征进行融合,然后用于后面的分类,属性预测和triplet训练(衣服pair的训练)。

蓝色分支,用于特征点的定位,并给出特征点是否可见(补充一点,数据集在标注的时候,即使特征点被遮挡,也不会被标出来,但是会指明被遮挡。)

Forword Pass
前向计算时,分三步走:

  1. 对于输入先计算蓝色分支,得到预测关键点的位置。
  2. 将预测的关键点信息用于绿色分支,提取关键点的特征,这里有一个关键点poolin 层。下图给出。
  3. 全局特征和关键点特征进行融合,concate,然后用于分类,和属性分类。

关键点Pooling层如下:

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

Backword Pass
反向传播时,考虑5个损失函数的加权:1.关键点的回归loss,2.关键点是否可见的softmax loss,3.类别的softmax loss,4.属性的交叉损失,5.同一件衣服的triplet loss。
训练时,把蓝色分支作为主要任务,红色分支和绿色分支作为辅助任务。所以,关键点的损失和关键点是否可见的损失,将会被加重。

4. Experiments

实验部分主要对比了两个方法。WTBI(where to buy it)和DARN(Dual Attribute-aware Ranking Network)

4.1 Results

Cagegory Classification
通过实验,文章对类别分类总结出三点规律:

  1. FashionNet远远超过WTBI和DARN。这说明,加入了关键点信息有助于分类。
  2. 当将衣物关键点替换成人体姿势或者人体关键点时,表现下降了6-9个点。再一次说明衣物关键点的有效性。
  3. 使用大越多的属性,分类的准确率越好。使用1000个属性会比使用500个属性要好。

Attribute Prediction
同样,属性分类也得益于关键点。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

In-Shop Clothes Retrieval
在这个任务上也可以看到,关键点对图像检索的作用也是相当明显的。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

Consumer-to-Shop Clothes Retrieval
虽然这种情况下的表现比上面in-shop低不少,但是关键点的加入效果显著。所以知道为啥把关键点作为主要任务了吧。当然也有可能正是因为关键点作为主要任务,才能在最终效果中体现出如此重要的作用。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 image.png

4.2 进一步分析

然后作者做了一些围绕关键点的其他实验。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 10

上图10,左边是不同关键点的检测率。右边表明属性(attributes)的加入能提升关键点的检测。毕竟有些属性描述了关键点,比如“fringed-hem”(流苏下摆)。

《[Paper Share - 5]DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations》 11

而图11左边则展示了,尺度变化带来的挑战比姿势带来的挑战更大。右边展示了几个类别的检索精度。
至此,本文已经结束。从这篇论文中,我们学到了一个如何提取一个有效的特征,与及图像的标注,大小,衣物的类别,姿态对图像检索效果会有的影响。

好,今天的分享就到这里。后期会继续写关于图像检索的论文分享。晚安,各位。
——少侠阿朱 2017.12.05于深圳。

转载注明处处呗。简书

    原文作者:少侠阿朱
    原文地址: https://www.jianshu.com/p/c599d0c2bd74#comments
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞