CVPR 2020 论文阅读笔记(三维点云/三维重建)

如题所述

第1个回答  2022-07-21

论文地址: https://arxiv.org/abs/2003.00410
前置文章:10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云,克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知,之前的点云修复方法是输入不完整的点云,输出完整的点云,但这样会导致原有信息的缺失。这篇文章提出PF-Net,主要特点有三个:

网络的整体结构如下:

网络详细推理步骤如下:

损失函数使用完整性损失和对抗损失的加权平均,完整性损失使用L-GAN中提出的CD距离:

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致,在编码器、解码器和CMLP中都应用了这种思想,最后的效果也非常不错,很值得借鉴。

论文地址: https://arxiv.org/abs/1612.00593

PointNet提出一种基础的网络结构,可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前,点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式,然后应用2D/3D CNN进行处理,但这样引入了多余的体积,效率不高。本文是第一个直接使用点云数据的神经网络。(其实可以这样类比,在二维图像处理中,假设图像是二值化的,传统方法是将这个图像直接丢到CNN里面,但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面,对稀疏数据会有比较好的性能,但因为以下三个问题导致直接使用坐标信息比较困难)
由于点云的排列是无序的(可以想象,点云中任意一点排在前面对点云的表达都是相同的)、点云之间是有相互作用的(相邻的点云才能构成形状)、点云在某些变换下具有不变性(比如旋转不会改变点云的类别)这些特性,要求神经网络既能处理无序的数据,又能捕捉全局的结构特征,同时对刚性变换不敏感。基于这些条件,作者提出了如下的网络结构:

可以简要分析一下网络的工作流程,以点云分类问题为例:

感觉网络的结构虽然简单,但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中,也有时候必须用到坐标信息或者一些标量特征,这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址: http://proceedings.mlr.press/v80/achlioptas18a.html

这篇文章的主要工作是:

首先来看衡量两个点云相似程度的指标部分,作者首先给出了两个距离,EMD和CD:

在计算上,CD更为简便,而且EMD是不可导的。

基于这两种距离,作者引入了三种衡量两个点云相似程度的指标:JSD、Coverage和MMD:

定义了指标后,就可以实现自动编码器和生成模型了。作者提到了四种结构,分别是:

作者同时验证了AE的一些其他功能,比如如果给AE的编码器输入不完整的点云数据,即可训练得到点云复原的模型。使用SVM对低维表示进行分类,即可进行点云分类的任务,证明AE在点云数据形式中的潜在应用较为广泛。

论文地址: http://papers.nips.cc/paper/7095-pointnet-deep-hierarchical-feature-learning-on-point-se

PointNet++针对PointNet提取局部信息能力不强的弊端,提出了一种层次神经网络,可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息,然后将每个小部分整合成较大的部分,提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图:

网络大概可以分为两个部分,左边是层次的点云特征提取网络,右边是针对不同任务的解码网络。
特征提取分为若干个set abstraction模块,每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后,对不同的任务需要不同的解码网络。对分类网络来说比较简单,使用全连接即可。对分割网络来说,由于对每个点都需要输出数值,则需要类似上采样的操作。具体的实现作者使用了插值的方法,将较少的点插值到较多的点上去。首先找到插值的目标坐标,然后寻找K个距离最近的已知点,以距离的倒数作为权重,将K个点的特征做加权平均,作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接,即可得到最终特征(类似U-Net的skip connection)。公式如下:

感觉这篇文章和PF-Net的思想差不多,都是希望提取多尺度的特征。但是思路不一样,都值得借鉴。