PointPillars: Fast Encoders for Object Detection from Point Clouds | Notion

Abstract

본 논문의 저자들은 point cloud를 특정 format으로 변경한 이후의 단계에 대해 문제점을 지적
- fixed encoders → fast / sacrifice accuracy → MV3D, AVOD, PIXOR, Complex YOLO
- encoders learned from data → slow / more accurate
이 문제점들을 Pillars라는 구조에 PointNet을 적용한 encoder 제안
encoder의 output은 2D CNN에 적용 가능

⇒ 속도와 정확도 측면에서 더 좋은 encoder 개발

⇒ KITTI의 3D detection / BEV detection에서 Lidar 부분 SOTA 달성

Introduction

Related Work

Object detection using CNNs
- R-CNN : 이미지를 활용한 detection에서 CNN 활용 SOTA 달성
- Faster R-CNN, Mask R-CNN : Two-stage, RPN으로 후보군 생성
  
  → One-stage인 SSD보다 좋은 성능
- One-stage는 RPN 이용 없이 바로 detection → 빠름 + 구조 간단
- focal loss를 이용하여 one-stage로 two-stage보다 좋은 성능 및 빠른 속도
- 본 논문에서는 one-stage 채택
Object detection in lidar point clouds
- 이미지와는 다르게 3차원이라는 본질적인 문제
  - 3D CNN → 직관적이지만 느림
  - point cloud → BEV or Front view projection → 속도 좀 더 빨라짐
  - MV3D, AVOD, PIXOR, Comple YOLO : fixed-length, hand crafted
- PointNet / PointNet++의 등장으로 point cloud를 direct로 다룰 수 있게 됨
  - VoxelNet : PointNet 구조를 통해 encoder를 학습 + 3D CNN과 RPN(2D backbone, detection head) 적용
    
    → 3D CNN으로 인해 여전히 속도가 느림
  - Frustum PointNet : PointNet 구조를 이용하여 2D detection 수행 후 3D 로 확장
    
    → Multi-stage design / end-to-end가 아님
  - SECOND는 VoxelNet의 속도가 느린 단점을 해결
    
    → 여전히 3D CNN을 이용하기 때문에 느림

Contributions

새로운 방식의 encoder 및 구조 제안
Pillars를 이용한 계산 방식이 2D CNN에 적용되고, 속도가 빠른 것 증명
KITTI dataset에서 SOTA 결과인 것 수행
Ablation studies로 주요 요소들 조사

PointPillars Network

Untitled

Pointcloud to Psuedo-Image

2D CNN을 적용하기 위해 point cloud → pseudo-image로 변경
$l = (x,y,z,r)$.

point cloud를 x,y grid로 나누게 됨. 이 값은 Bin이라고 부름

→ z축에 대해 bin 할 필요 없음

→ 즉, voxel에서 z축이 전체 lidar의 z축의 길이와 같다고 생각하면 편함
각 pillars에 대해 평균값인 $(x_c, y_c, z_c)$와 $(x_p, y_p)$ 로 pillar의 위치 결정 가능

→ 총 9개 $(x,y,z,r, x_c, y_c, z_c, x_p, y_p)$의 차원을 가지게 됨