Multi-View 3D Object Detection Network for Autonomous Driving

Abstract

LIDAR point cloud 와 RGB image를 input으로 사용하여 방향이 있는 3D bounding box를 예측하는 모델 개발
sparse 3D point cloud를 multi-view representation으로 Encode 함
2가지의 subnetworks를 가짐
- 3D object proposal generation
  - bird’s eye view 표현으로 3D candidate box 생성
- multi-view feature fusion
  - deep fusion이라는 방식을 적용
  - multi-view의 feature를 region-wise로 결합
  - 중간 layer의 다른 path를 같이 사용
KITTI benchmark dataset으로 실험 진행
- 3D localization, 3D detection에서 AP 성능 향상
- 2D detection에서도 AP 성능이 기존 LIDAR 기반 방법보다 더 좋음

Introduction

자율주행 인지 시스템에서 3D detection은 중요한 역할을 함
다양한 센서를 이용해서 자율주행 이용
- LIDAR은 깊이 정보를 정확하게 알 수 있다는 장점
- Camera는 구체적인 semantic 정보를 제공한다는 점이 장점
- LIDAR과 RGB images를 합침으로써 성능 향상 기대
LIDAR과 image data 같이 사용하여 3D object detection

⇒ 3D localization과 recognition에서 높은 정확도
LIDAR 기반 방법
- 3D voxel grid를 이용 → 해당 point에 객체 존재 확률 예측
- front view point map을 CNN에 이용하여 dense box prediction
  
  → 3차원 공간에서 박스의 위치와 크기를 많은 개수로 예측
  
  → anchor box 기반이 아니기 때문에 영역에 대한 결과를 계속 생성
  
  → 객체의 높이 너비 깊이 등의 정보를 정확하게 예측
⇒ LIDAR point cloud 기반 방법들은 3D location에서 더 정확함
이미지 기반 방법
1. 3D box proposal 생성
2. Fast R-CNN과 같은 구조로 region-based recognition 진행
⇒ 이미지 기반 방법들은 2D box 관점에서 더 정확함
기존에는 early fusion 혹은 late fusion 방식으로 2D detection

⇒ 3D detection 쪽에서는 접근하기 어려웠음
Multi-View 3D object detection network(MV3D)
- input으로 Image + sparse point cloud
  
  ⇒ 3D detection
- region-based feature fusion
  
  즉, 다양한 영역에서 추출된 특징을 결합
  
  하나의 이미지에서 각기 다른 특징을 결합함으로써 더 정확한 결과
1. Multi-View encoding
2. 3D Proposal Network / Region-based Fusion Network
  
  ⇒ 3D proposal netwrok 는 bird’s eye view 표현에서 3D candidate box 생성
  
  이 때 생성된 proposal은 다양한 view로 projection 가능하다는 장점
  
  ⇒ multi-view fusion network에서는 region wise feature를 projection된 feature map에서 추출하여 사용
drop-path 방식과 보조 loss를 이용하여 early/late fusion 방식보다 우수한 성능
multi-view feature 표현 방식으로 방향이 있는 3D box regression을 통해 더 정확하게 맞출 수 있게 됨
KITTI dataset으로

3D proposal generation, localization, detection, 2D detection
- proposal generation에서는 3DOP와 Mono3D보다 성능 우수
  
  ⇒ 300개의 proposal로 우수한 Recall 성능
- LIDAR 기반 방식보다 localization에서 우수
- 3D object detection에서도 우수
- LIDAR 기반 방식보다 2D object detection에서도 우수

Related Work

point cloud와 image, multimodal fusion, 3D object proposal 기반 3D object detection에 대한 기존 연구들을 간략하게 살펴봄
- 3D Object Detection in Point Cloud
  - voxel grid 표현 방법을 이용해 encode
  - Sliding Shapes, Vote3D는 SVM classifier를 이용
  - 3D conv를 이용한 feature 표현 방법도 있음
    
    ⇒ 연산량이 너무 많음
  - VeloFCN은 point cloud → front view 2D point map
    
    ⇒ 이 feature map에 2D conv 적용해서 3D box 예측
  - point cloud에 대한 multi-view 표현으로 3D object classification
    
    ⇒ 3D point cloud → multi-view feature maps 으로 Encode
    
    ⇒ multimodal fusion을 위한 region based로 표현 변경
- 3D Object Detection in Images
  - 3DVP : 3D voxel 패턴으로 channel별 특징을 융합하는 ACF(Aggregate Channel Feature) detector를 적용해 2D detection과 3D pose estimation 수행
  - 3DOP : 스테레오 카메라 이미지를 통해 depth를 재구성
    
    → 3차원 점들의 위치 추정을 통해 3D box proposal 생성
  - Mono3D : 3DOP와 다르게 monocular image를 사용하여 3D proposal 생성
  - 3D wireframe model을 사용하여 객체 표현 가능
  ⇒ 3차원 객체의 뼈대 모양(객체의 외곽선, 면) 등 표현
  - 시간적 정보를 통합하기 위해
    
    특정 모델에서는 모션 구조와 지면 추정을 결합하여 2D detection box를 3D bounding box롤 변환
  ⇒ 이미지 기반 방법은 정확한 depth estimation에 의존적임
- Multimodal Fusion
  - 여러 종류의 데이터를 사용한 연구는 적음
  - 2D 보행자 감지를 위한 혼합 프레임워크를 사용하여 이미지, 깊이 및 광학 흐름을 결합
  - RGB image + depth image ⇒ early fusion ⇒ 2D pose detection
  - FractalNet과 Deeply-Fused Net에서 영갑을 받은 deep fusion 방식 제안
    - FractalNet path를 증가시키면서 반복적으로 네트워크 구성
    - Deeply-Fused Net 얕고 깊은 네트워크를 결합하여 네트워크 구성
      
      ⇒ 각 열에 동일한 기본 네트워크를 사용하고 규제를 위한 보조 경로와 손실을 추가함
- 3D Object Proposals
  - 2D object proposal과 유사하게, 3D object proposal 방식은 작은 3D box 후보군(anchor)을 생성하여 물체검출을 해결하려 함.
  - 3DOP에서는 스테레오 카메라를 이용한 stereo point cloud를 통해 depth feature를 추출하고 그것을 통해 3D candidate box에 객체 존재확률을 계산함
  - Mono3D에서는 a먼저 지면을 이용하고 segmentation 기술을 통해 단일 이미지에서 3D proposal 생성
  ⇒ 3DOP와 Mono3D 모두 hand-crated features를 사용한다는 문제점 존재
  - Deep Sliding Shapes 모델은 더 깊은 features를 이용함
  - 논문의 저자들은 LIDAR 센서의 Bird’s eye view 표현에 2D conv를 적용하여 3D proposal을 생성하는 방식 소개

MV3D Network

MV3D 모델은 3D point cloud와 image 를 입력으로 받아 multi-view로 표현함