VoxelNet : End-to-End Learning for Point Cloud Based 3D Object Detection

Abstract

point clouds로 정확한 3D detection은 다양한 분야에서 중요한 문제
LiDAR point clouds와 RPN을 사용하는 방식은 수작업이 많이 필요함(문제점)

⇒ bird’s eye view projection.
해당 문제점을 해결하기 위해 VoxelNet을 제안함.

⇒ 수작업 제거, one-stage로 feature extraction 과 bounding box prediction 한 번에 진행.
- Voxel encoding layer (VFE)
기존의 방법들보다 성능 우수 + 보행자, cyclist 검출 가능

LiDAR가 가지는 특징 : 믿을만한 깊이 정보 제공

⇒ 정확하게 위치시키고, 형태를 특징지을 수 있음.

⇒ Sparse : 넓게 퍼지게 데이터가 얻어짐

⇒ Highly variable point density : 균일하지 않고 많이 밀집해 있는 곳에는 많은 point 들이, 적게 분포되어 있는 곳에는 적은 point가 얻어짐

⇒ 3D 공간에서의 불균일한 샘플링, 센서의 유효 범위, occlusion, relative pose 요소 영향
이러한 문제를 해결하기 위해 수작업으로 point cloud 변형
- point cloud를 특정 view로 투사 후 이미지 기반 feature extraction 적용
- point cloud를 3D voxel grid형태로 전환시키고 수작업으로 voxel encoding
⇒ 수작업 방식은 효과적으로 3D shape 정보와 균일성을 가져오지 못함.

⇒ 이를 machine-learned features로 전환할 필요가 있음.
PointNet은 point clouds로부터 point-wise feature를 얻고 그것을 통해 detection, segmentation 수행
개선된 PointNet은 different scale로부터 다른 특징 학습
만족스러운 결과를 얻기 위해, 모든 입력 point에 대해 두가지 방법 적용
LiDAR로 얻는 point는 ~100k개 정도 ⇒ 많은 계산량 메모리 요구
목표 : 3D feature learning → 더 많은 point, 3D detection 확장
RPN의 경우 point cloud형태가 아닌 tensor 형태여야 함.(이미지 형태)

⇒ 따라서, 이 둘의 차이를 VoxelNet을 통해 줄일 예정

수작업 feature 표현 방법은 이전에도 시행되어왔는데, 더 복잡한 모양, 장면에 적응하지 못해 통제 불가능한 상황에서 일관성을 학습할 수 없어 제한적인 성공을 가져옴
2D image로부터 3D bounding box를 그리려는 시도

⇒ 깊이 추정 정확도에 의해 제한됨
LiDAR 기반 3D object detection 기법 : voxel grid 표현

⇒ 6개의 통계량으로 voxel 표현

⇒ 각각의 픽셀 표현하기 위해 여러 통계량 융합

⇒ 복셀 그리드에서 거리 계산

⇒ 3D voxel grid 에서 이진 인코딩 기법 사용

⇒ bird’s eye view 와 원통 좌표계 이용하여 point cloud 를 multi-view 표현

⇒ point cloud 특정 시각의 view로 투영 후 이미지 기반 특징 인코딩
image 와 LiDAR fusion을 통해 성능 개선

⇒ 물체가 멀리 있는 경우 or 작은 물체(보행자, 자전거 이용자) 상황에서 성능 향상

⇒ camera의 시간동기화와 보정은 사용을 제한함.