Pointnet 论文精读

背景

PointNet 是Point cloud的Object detection问题的近乎奠基的论文。作者来自于Stanford，PointNet发表在CVPR 2017。这篇文章是VoxelNet（CVPR2018）的指导思想，VoxelNet将PointNet的功能由分类拓展到定位+分类。

点云point cloud的object detection相比较于图片，有以下三个性质或者难点：

point_net_framework

蓝色框中为做Classification任务的网络。红色为做Segmentation任务时的网络。做Classification任务时，每个输入的点云仅代表一种物体。

为求简洁，只看蓝色部分以及两个T-Net。

上图的input transform和feature transform先不看，那么PointNet就很简单了：

如果没有input transform和feature transform，上述的网络并没有解决旋转不变性。

PointNet认为，要解决旋转不变性，就要对点云做处理。一种思路是将所有点云都提前旋转到一个标准的空间位置（a canonical space）。比如一幅点云表示椅子，则先将椅子旋转到与地面平行再把这个点云喂给网络。有Paper做了这个工作，但是PointNet采用了另外一种思路:

PointNet想法和上面差不多，但是它没有人为地去计算要把椅子旋转到与地面平行的旋转矩阵，而是让T-net去学习这个旋转矩阵！

T-net图中没有画出其结构，不过论文中有写，其结构为：

可以看出，T-net与PointNet结构非常相似。

~~可能是觉得这样做效果不太好，后面又加了个feature transform去旋转特征。~~

PointNet里论证了为什么他们这个网络函数对任意点云能够解决其无序性的问题。用到了集合的理论。公式太复杂，我的理解就是关键在于这个Max pooling。它将之前与点云顺序有关的nx1024个神经元降采样到1x1024个特征，这样就与原始点云顺序无关了。原始证明我并不太看得懂，在附加链接中。