자율주행 인지 시스템에서 3D detection은 중요한 역할을 함
다양한 센서를 이용해서 자율주행 이용
LIDAR과 image data 같이 사용하여 3D object detection
⇒ 3D localization과 recognition에서 높은 정확도
LIDAR 기반 방법
3D voxel grid를 이용 → 해당 point에 객체 존재 확률 예측
front view point map을 CNN에 이용하여 dense box prediction
→ 3차원 공간에서 박스의 위치와 크기를 많은 개수로 예측
→ anchor box 기반이 아니기 때문에 영역에 대한 결과를 계속 생성
→ 객체의 높이 너비 깊이 등의 정보를 정확하게 예측
⇒ LIDAR point cloud 기반 방법들은 3D location에서 더 정확함
이미지 기반 방법
⇒ 이미지 기반 방법들은 2D box 관점에서 더 정확함
기존에는 early fusion 혹은 late fusion 방식으로 2D detection
⇒ 3D detection 쪽에서는 접근하기 어려웠음
Multi-View 3D object detection network(MV3D)
input으로 Image + sparse point cloud
⇒ 3D detection
region-based feature fusion
즉, 다양한 영역에서 추출된 특징을 결합
하나의 이미지에서 각기 다른 특징을 결합함으로써 더 정확한 결과
Multi-View encoding
3D Proposal Network / Region-based Fusion Network
⇒ 3D proposal netwrok 는 bird’s eye view 표현에서 3D candidate box 생성
이 때 생성된 proposal은 다양한 view로 projection 가능하다는 장점
⇒ multi-view fusion network에서는 region wise feature를 projection된 feature map에서 추출하여 사용
drop-path 방식과 보조 loss를 이용하여 early/late fusion 방식보다 우수한 성능
multi-view feature 표현 방식으로 방향이 있는 3D box regression을 통해 더 정확하게 맞출 수 있게 됨
KITTI dataset으로
3D proposal generation, localization, detection, 2D detection
proposal generation에서는 3DOP와 Mono3D보다 성능 우수
⇒ 300개의 proposal로 우수한 Recall 성능
LIDAR 기반 방식보다 localization에서 우수
3D object detection에서도 우수
LIDAR 기반 방식보다 2D object detection에서도 우수
3D Object Detection in Point Cloud
voxel grid 표현 방법을 이용해 encode
Sliding Shapes, Vote3D는 SVM classifier를 이용
3D conv를 이용한 feature 표현 방법도 있음
⇒ 연산량이 너무 많음
VeloFCN은 point cloud → front view 2D point map
⇒ 이 feature map에 2D conv 적용해서 3D box 예측
point cloud에 대한 multi-view 표현으로 3D object classification
⇒ 3D point cloud → multi-view feature maps 으로 Encode
⇒ multimodal fusion을 위한 region based로 표현 변경
3D Object Detection in Images
3DVP : 3D voxel 패턴으로 channel별 특징을 융합하는 ACF(Aggregate Channel Feature) detector를 적용해 2D detection과 3D pose estimation 수행
3DOP : 스테레오 카메라 이미지를 통해 depth를 재구성
→ 3차원 점들의 위치 추정을 통해 3D box proposal 생성
Mono3D : 3DOP와 다르게 monocular image를 사용하여 3D proposal 생성
3D wireframe model을 사용하여 객체 표현 가능
⇒ 3차원 객체의 뼈대 모양(객체의 외곽선, 면) 등 표현
시간적 정보를 통합하기 위해
특정 모델에서는 모션 구조와 지면 추정을 결합하여 2D detection box를 3D bounding box롤 변환
⇒ 이미지 기반 방법은 정확한 depth estimation에 의존적임
Multimodal Fusion
FractalNet path를 증가시키면서 반복적으로 네트워크 구성
Deeply-Fused Net 얕고 깊은 네트워크를 결합하여 네트워크 구성
⇒ 각 열에 동일한 기본 네트워크를 사용하고 규제를 위한 보조 경로와 손실을 추가함
3D Object Proposals
⇒ 3DOP와 Mono3D 모두 hand-crated features를 사용한다는 문제점 존재