三维图像分类、语义分割和重建

三维图像分类、语义分割和重建

引言

随着自动驾驶、机器人等技术的发展,需要知道空间物体的具体三维信息:位置、形状和状态估计等,因此三维方面的深度学习具有一个较大的发展空间,下面主要对于空间三维物体识别以及重建进行简单回顾,后面会进一步更新和充实完善,希望各位大佬不惜赐教。

1 三维数据的深度学习原理

1.1 三维数据表示方法

point cloud 、Mesh、Voxel和Multi-View Images等

《三维图像分类、语义分割和重建》
图 1.1 三维模型的表示方法 (来源:stanford bunny)

1.2 神经网络的优势

对于二维图像卷积网络CNN具有极大的优势,其能够高效的提取图像特征并得到非常好的结果。当图像转化为三维的时候其主要问题如下:

  1. 二维图像=二维矩阵,三维图像=无序的点+非结构化网络+大矩阵空间,这时候采用CNN的深度学习空间将面临训练慢,最主要是无序性导致没办法训练。且当其空间姿态变化之后,也将会引起较大的变化。
  2. 数据集的多样性,实际场景中物体多种多样,点云大小差距也很大,模型能否处理不同尺度的点云面临非常大的挑战,且点云数据集较二维图像少

对于这样一个复杂的问题,我们怎么发挥神经网络的优势呢,我们回顾一下神经网络具有什么优势:

表1.1 非线性神经元模型
《三维图像分类、语义分割和重建》

神经网络从人的神经元类似推理出来的,其具有非线性、非参数统计推断、适应性、证据响应、背景信息、容错性、VLSI实现和分析和设计的一致性。目前演变出来的学习方法都是类比于人脑的运作机制给予一个具体的数学表达,学习过程大概有:误差修正学习、给予记忆的学习、Hebb学习、竞争学习、Boltzmann学习、有教师学习、无教师学习、自适应学习、记忆、统计学习等方法,有一个较为成熟的框架,具体可以看《神经网络原理》非常经典的书。我们需要给予一个合理的模型框架,充分发挥神经网络的特长,上面提到的三维图像的问题或许就不是问题了,只是我们要合理利用神经进行一些尝试:

  1. 从结构构图入手,结构通常都可以认为是基本几何:圆柱、多面体和球等空间构成,基于此是否可以搭建一个较为成熟的神经网络
  2. 既然具有无序性,神经网络具有处理这种无序性的能力,那我们就构件一个神经网络去学习无序性,如:pointCNN
  3. 三维结构的点和线类似于无向图,我们可以通过图的方法去学习结构的特征,如:GNN
  4. 。。。。
    这些方法都有在相关论文中看到,当然有很多方法,非常希望各位大佬进行补充指点。

1.2.1 三维图的构成

我们通常看到一个物体第一反映通常是其是方、圆的或者其他形状的,并能快速判断其是由什么形状进行布尔运算得到的,就像我们学习绘画设计,物体的通常都是由基本的形体拼接而成,这个问题主要问题和解决方法以及优势如下:
主要问题:

《三维图像分类、语义分割和重建》

1.2.2 多视觉图像

当对于物体我们采用不同的视角采集信息,总能够将一个物体很好的分类,所以其核心思想是采用物体多视觉下的图片来表征三维物体,但其也有较明显的问题:
主要问题:

  1. 由于视觉的遮挡我们很难无限制的采集多视觉的信息,且对于大场景其问题更加明显
  2. 二维图片本身缺乏三维结构的信息
    <img src="https://ddrvcn.oss-cn-hangzhou.
点赞