본 논문의 저자들은 point cloud를 특정 format으로 변경한 이후의 단계에 대해 문제점을 지적
이 문제점들을 Pillars라는 구조에 PointNet을 적용한 encoder 제안
encoder의 output은 2D CNN에 적용 가능
⇒ 속도와 정확도 측면에서 더 좋은 encoder 개발
⇒ KITTI의 3D detection / BEV detection에서 Lidar 부분 SOTA 달성
R-CNN : 이미지를 활용한 detection에서 CNN 활용 SOTA 달성
Faster R-CNN, Mask R-CNN : Two-stage, RPN으로 후보군 생성
→ One-stage인 SSD보다 좋은 성능
One-stage는 RPN 이용 없이 바로 detection → 빠름 + 구조 간단
focal loss를 이용하여 one-stage로 two-stage보다 좋은 성능 및 빠른 속도
본 논문에서는 one-stage 채택
VoxelNet : PointNet 구조를 통해 encoder를 학습 + 3D CNN과 RPN(2D backbone, detection head) 적용
→ 3D CNN으로 인해 여전히 속도가 느림
Frustum PointNet : PointNet 구조를 이용하여 2D detection 수행 후 3D 로 확장
→ Multi-stage design / end-to-end가 아님
SECOND는 VoxelNet의 속도가 느린 단점을 해결
→ 여전히 3D CNN을 이용하기 때문에 느림
point cloud를 x,y grid로 나누게 됨. 이 값은 Bin이라고 부름
→ z축에 대해 bin 할 필요 없음
→ 즉, voxel에서 z축이 전체 lidar의 z축의 길이와 같다고 생각하면 편함
각 pillars에 대해 평균값인 $(x_c, y_c, z_c)$와 $(x_p, y_p)$ 로 pillar의 위치 결정 가능
→ 총 9개 $(x,y,z,r, x_c, y_c, z_c, x_p, y_p)$의 차원을 가지게 됨