다중 시점 깊이 추정은 다양한 벤치마크 테스트에서 높은 성능을 달성했습니다. 그러나 현재의 거의 모든 멀티뷰 시스템은 주어진 이상적인 카메라 포즈에 의존하는데, 이는 자율 주행과 같은 많은 실제 시나리오에서는 사용할 수 없습니다. 이 연구는 다양한 노이즈 포즈 설정에서 깊이 추정 시스템을 평가하기 위한 새로운 견고성 벤치마크를 제안합니다. 놀랍게도 현재의 다중 시점 깊이 추정 방법이나 단일 시점 및 다중 시점 융합 방법은 잡음이 있는 포즈 설정이 주어지면 실패하는 것으로 나타났습니다. 이러한 과제를 해결하기 위해 여기서는 강력하고 정확한 깊이 추정을 달성하기 위해 신뢰도가 높은 다중 뷰 및 단일 뷰 결과를 적응적으로 통합하는 단일 뷰 및 다중 뷰 융합 깊이 추정 시스템인 AFNet을 제안합니다. 적응형 융합 모듈은 소포 신뢰도 맵을 기반으로 두 가지 사이의 신뢰도가 높은 영역을 동적으로 선택하여 융합을 수행합니다. 따라서 질감이 없는 장면, 부정확한 보정, 동적 개체 및 기타 성능이 저하되거나 까다로운 조건에 직면할 때 시스템은 보다 안정적인 분기를 선택하는 경향이 있습니다. 견고성 테스트에서 이 방법은 최첨단 다중 뷰 및 융합 방법보다 성능이 뛰어납니다. 또한 까다로운 벤치마크(KITTI 및 DDAD)에서도 최첨단 성능을 달성했습니다.
논문 링크: https://arxiv.org/pdf/2403.07535.pdf
논문 이름: Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving
이미지 깊이 추정은 항상 광범위한 응용 분야를 갖춘 컴퓨터 비전 분야의 도전이었습니다. 비전 기반 자율 주행 시스템의 경우 도로 위의 물체를 이해하고 환경의 3D 지도를 구축하는 데 도움이 되는 깊이 인식이 핵심입니다. 다양한 시각 문제에 심층 신경망을 적용하면서 CNN(Convolutional Neural Network) 기반 방법이 깊이 추정 작업의 주류가 되었습니다.
입력 형식에 따라 크게 다중 시점 깊이 추정과 단일 시점 깊이 추정으로 나누어집니다. 깊이를 추정하기 위한 다중 뷰 방법의 기본 가정은 올바른 깊이, 카메라 보정 및 카메라 자세가 주어지면 뷰 전체의 픽셀이 유사해야 한다는 것입니다. 그들은 고품질 깊이 측정을 삼각 측량하기 위해 에피폴라 기하학을 사용합니다. 그러나 다중 뷰 방법의 정확성과 견고성은 카메라의 기하학적 구성과 뷰 간의 해당 일치에 크게 좌우됩니다. 첫째, 카메라는 삼각 측량이 가능하도록 충분히 이동해야 합니다. 자율주행 시나리오에서 자율주행차는 신호등에 정지하거나 전진하지 않고 회전할 수 있으며, 이로 인해 삼각 측량이 실패할 수 있습니다. 또한, 멀티뷰 방식은 자율주행 시나리오에서 흔히 나타나는 동적 대상과 질감이 없는 영역의 문제로 어려움을 겪고 있습니다. 또 다른 문제는 움직이는 차량에 대한 SLAM 자세 최적화입니다. 기존 SLAM 방식에서는 어렵고 피할 수 없는 상황은 말할 것도 없고 소음도 불가피합니다. 예를 들어, 로봇이나 자율주행차는 재보정 없이 수년간 배치되어 시끄러운 자세를 초래할 수 있습니다. 대조적으로, 단일 뷰 방법은 장면의 의미론적 이해와 원근 투영 큐에 의존하기 때문에 텍스처가 없는 영역, 동적 객체에 더 강력하고 카메라 포즈에 의존하지 않습니다. 그러나 규모의 모호성으로 인해 성능은 여전히 멀티뷰 방식에 크게 뒤떨어집니다. 여기서 우리는 자율 주행 시나리오에서 강력하고 정확한 단안 비디오 깊이 추정을 위해 이 두 가지 방법의 장점을 잘 결합할 수 있는지 고려하는 경향이 있습니다.
AFNet 구조는 다음과 같습니다. 단일 뷰 분기, 다중 뷰 분기 및 AF(적응형 융합) 모듈의 세 부분으로 구성됩니다. 두 가지 분기는 특징 추출 네트워크를 공유하고 자체 예측 및 신뢰도 맵(즉, , 및 )을 가지며 AF 모듈에 의해 융합되어 최종 정확하고 강력한 예측을 얻습니다. AF 모듈의 녹색 배경은 단일을 나타냅니다. -view 분기 및 다중 보기 분기의 출력입니다.
손실 함수:
백본 기능을 병합하고 심층 기능 D를 얻기 위해 AFNet은 다중 스케일 디코더를 구축합니다. 이 과정에서 Ds의 처음 256개 채널에 대해 소프트맥스 연산을 수행하여 깊이 확률량 Ps를 구한다. 깊이 기능의 마지막 채널은 단일 뷰 깊이 신뢰 맵 Ms로 사용됩니다. 마지막으로 단일 뷰 깊이는 소프트 가중치를 통해 계산됩니다.
멀티 뷰 브랜치는 싱글 뷰 브랜치와 백본을 공유하여 참조 이미지와 소스 이미지의 특징을 추출합니다. 우리는 저해상도 기능을 1/4 해상도로 디콘볼루션하고 비용 볼륨을 구성하는 데 사용되는 초기 1/4 기능과 결합하기 위해 디콘볼루션을 채택합니다. 피처 볼륨은 소스 피처를 참조 카메라가 뒤따르는 가상 평면으로 래핑하여 형성됩니다. 너무 많은 정보가 필요하지 않은 강건한 매칭을 위해 특징의 채널 차원을 계산에 유지하고 4D 비용 볼륨을 구성한 다음 두 개의 3D 컨볼루셔널 레이어를 통해 채널 수를 1개로 줄입니다.
깊이 가설의 샘플링 방법은 단일 뷰 분기와 일치하지만 샘플 수는 128개에 불과하며, 누적된 2D 모래시계 네트워크를 사용하여 정규화하여 최종 다중 뷰 비용 볼륨을 얻습니다. 단일 뷰 특징의 풍부한 의미 정보와 비용 정규화로 인해 손실된 세부 정보를 보완하기 위해 잔여 구조를 사용하여 단일 뷰 깊이 특징 D와 비용 볼륨을 결합하여 다음과 같이 융합된 깊이 특징을 얻습니다.
정확하고 견고한 최종 예측을 얻기 위해 AF 모듈은 그림 2와 같이 두 분기 사이에서 가장 정확한 깊이를 최종 출력으로 적응적으로 선택하도록 설계되었습니다. 융합 매핑은 세 가지 신뢰도를 통해 수행되며, 그 중 두 개는 두 분기에 의해 각각 생성된 신뢰도 맵 Ms와 Mm입니다. 가장 중요한 것은 다중 뷰 분기의 예측이 올바른지 여부를 결정하기 위해 포워드 래핑을 통해 생성된 신뢰도 맵 Mw입니다. 믿을 수 있는. .
DDAD(Dense Depth for Autonomous Driving)는 까다롭고 다양한 도시 조건에서 조밀한 깊이 추정을 위한 새로운 자율 주행 벤치마크입니다. 6개의 동기화된 카메라로 캡처되며 고밀도 LiDAR에서 생성된 정확한 지면 깊이(전체 360도 시야)를 포함합니다. 1936×1216 해상도의 단일 카메라 뷰에는 12650개의 훈련 샘플과 3950개의 검증 샘플이 있습니다. 6개 카메라의 모든 데이터는 훈련과 테스트에 사용됩니다. KITTI 데이터 세트는 움직이는 차량에서 촬영한 실외 장면의 입체 이미지와 해당 3D 레이저 스캔을 약 1241×376의 해상도로 제공합니다.
DDAD와 KITTI 평가 결과 비교. * 표시는 오픈 소스 코드를 사용하여 복제된 결과이며, 보고된 다른 숫자는 해당 원본 논문에서 나온 것입니다.
DDAD 방법의 각 전략에 대한 절제 실험 결과입니다. Single은 단일 시점 분기 예측 결과를 나타내고, Multi-는 다중 시점 분기 예측 결과를 나타내며, Fuse는 융합 결과 dfuse를 나타냅니다.
절제 결과의 특징 추출을 위해 네트워크 매개변수를 공유하고 일치 정보를 추출하는 방법입니다.
위 내용은 깊이 추정 SOTA! 자율 주행을 위한 단안 및 서라운드 깊이의 적응형 융합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!