엔드 투 엔드 패러다임은 통일된 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 구현합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 또한 모션 예측 및 계획을 재검토하고 보다 합리적인 모션 계획 프레임워크를 설계합니다. 까다로운 nuScenes 데이터세트에서 SparseAD는 엔드 투 엔드 접근 방식으로 최첨단 전체 작업 성능을 달성하고 엔드 투 엔드 패러다임과 단일 작업 접근 방식 간의 성능 격차를 줄입니다.
자율 운전 시스템은 운전 안전과 편안함을 보장하기 위해 복잡한 운전 시나리오에서 올바른 결정을 내려야 합니다. 일반적으로 자율주행 시스템은 감지, 추적, 온라인 매핑, 동작 예측, 계획 등 여러 작업을 통합합니다. 그림 1a에서 볼 수 있듯이 기존의 모듈형 패러다임은 복잡한 시스템을 여러 개별 작업으로 분할하고 각 작업은 독립적으로 최적화됩니다. 이 패러다임에서는 독립적인 단일 작업 모듈 간에 수동 후처리가 필요하므로 전체 프로세스가 더욱 번거로워집니다. 반면, 스택된 작업 간의 장면 정보 압축 손실로 인해 전체 시스템에 오류가 누적되어 잠재적인 안전 문제가 발생할 수 있습니다.
위의 문제와 관련하여 엔드투엔드 자율주행 시스템은 원시 퍼셉트론 데이터를 입력으로 사용하여 보다 간결한 방식으로 계획 결과를 반환합니다. 초기 작업에서는 중간 작업을 건너뛰고 원시 퍼셉트론 데이터에서 직접 계획 결과를 예측하는 것을 제안했습니다. 이 접근 방식은 더 간단하지만 모델 최적화, 해석 가능성 및 계획 성능 측면에서 만족스럽지 않습니다. 더 나은 해석성을 갖춘 또 다른 다면적인 패러다임은 자율 주행의 여러 부분을 모듈식 엔드투엔드 모델로 통합하는 것입니다. 이는 다차원 감독을 도입하여 복잡한 운전 시나리오에 대한 이해를 높이고 멀티 태스킹 기능을 제공합니다.
그림 1b에 표시된 것처럼 가장 진보된 모듈식 엔드투엔드 방법에서 전체 운전 시나리오는 다중 센서 및 시간 정보를 포함하고 조감도(BEV) 기능의 밀집된 컬렉션이 특징입니다. 인식, 예측, 계획을 포함한 작업을 구동하는 풀 스택 입력입니다. 조밀하게 집계된 BEV 기능은 공간과 시간에 걸쳐 다중 양식과 다중 작업을 달성하는 데 핵심적인 역할을 하지만 BEV 표현을 사용하는 이전의 엔드 투 엔드 방법은 Dense BEV-Centric 패러다임으로 요약됩니다. 이러한 방법의 단순성과 해석 가능성에도 불구하고 자율 주행의 각 하위 작업에 대한 성능은 해당 단일 작업 방법에 비해 여전히 훨씬 뒤떨어져 있습니다. 또한, Dense BEV-Centric 패러다임에서는 주로 다중 BEV 특징 맵을 통해 장기 시간 융합과 다중 모드 융합이 이루어지므로 컴퓨팅 비용과 메모리 사용량이 크게 증가하고 실제 운영에 더 큰 부담을 가져옵니다. 배포.
여기서 새로운 희소 검색 중심의 엔드투엔드 자율주행 패러다임(SparseAD)이 제안됩니다. 이 패러다임에서는 그림 1c와 같이 전통적인 조밀한 앙상블 조감도(BEV) 기능을 버리고 전체 운전 장면의 공간적 및 시간적 요소가 희박한 조회 테이블로 표현됩니다. 이러한 희소 표현을 통해 엔드투엔드 모델은 더 긴 기록 정보를 보다 효율적으로 활용하고 더 많은 모드와 작업으로 확장하는 동시에 계산 비용과 메모리 공간을 크게 줄일 수 있습니다.
모듈형 엔드투엔드 아키텍처를 재설계하고 희소 인식 및 모션 플래너로 구성된 간결한 구조로 단순화했습니다. 희소 인식 모듈에서는 범용 시간 디코더를 사용하여 감지, 추적 및 온라인 매핑을 포함한 인식 작업을 통합합니다. 이 과정에서 다중 센서 기능과 이력 기록은 토큰으로 처리되며, 객체 쿼리와 지도 쿼리는 각각 주행 장면의 장애물과 도로 요소를 나타냅니다. 모션 플래너에서는 희소 인식 쿼리가 환경 표현으로 사용되며 차량과 주변 에이전트에 대해 다중 모드 모션 예측이 동시에 수행되어 자체 차량에 대한 여러 초기 계획 솔루션을 얻습니다. 그 후, 다차원적인 주행 제약 조건을 충분히 고려하여 최종 계획 결과를 생성합니다.
주요 기여:
그림 1c에서 볼 수 있듯이 제안된 희소 쿼리 중심 패러다임에서는 서로 다른 희소 쿼리가 전체 운전 장면을 완전히 표현하며 모듈 간의 정보 전달 및 상호 작용을 담당할 뿐만 아니라 Backward Gradients는 또한 최적화를 위해 엔드투엔드 방식으로 여러 작업에 전파됩니다. 이전의 Dense Set Bird's-eye View(BEV) 중심 방법과 달리 SparseAD에서는 뷰 프로젝션 및 Dense BEV 기능을 사용하지 않으므로 과도한 계산 및 메모리 부담을 피할 수 있습니다. SparseAD의 세부 아키텍처는 그림 2에 나와 있습니다.
아키텍처 다이어그램에서 SparseAD는 주로 센서 인코더, 희소 인식 및 모션 플래너를 포함한 세 부분으로 구성됩니다. 특히 센서 인코더는 다시점 카메라 이미지, 레이더 또는 LiDAR 지점을 입력으로 가져와 이를 고차원 기능으로 인코딩합니다. 그런 다음 이러한 기능은 위치 임베딩(PE)과 함께 센서 토큰으로 희소 감지 모듈에 입력됩니다. 희소 감지 모듈에서 센서의 원시 데이터는 감지 쿼리, 추적 쿼리, 지도 쿼리와 같은 다양한 희소 감지 쿼리로 집계됩니다. 이는 각각 운전 장면의 서로 다른 요소를 나타내며 다운스트림으로 추가로 전파됩니다. 작업. 모션 플래너에서 인식 쿼리는 운전 장면의 희박한 표현으로 처리되며 주변의 모든 에이전트와 자가 차량에 완전히 활용됩니다. 동시에 안전하고 동적으로 규정을 준수하는 최종 계획을 생성하기 위해 여러 가지 운전 제약 조건이 고려됩니다.
또한 전체 운전 장면의 타이밍 정보를 균일하게 저장하기 위해 아키텍처에 엔드 투 엔드 멀티 태스크 메모리 라이브러리가 도입되었습니다. 풀스택 운전 작업.
그림 3에 표시된 것처럼 SparseAD의 희소 인식 모듈은 감지, 추적 및 온라인 매핑을 포함하여 여러 인식 작업을 희소 방식으로 통합합니다. 구체적으로, 메모리 뱅크의 장기 기록 정보를 활용하는 구조적으로 동일한 두 개의 시간 디코더가 있습니다. 디코더 중 하나는 장애물 감지에 사용되고 다른 하나는 온라인 매핑에 사용됩니다.
다양한 작업에 해당하는 인식 쿼리를 통해 정보를 수집한 후 감지 및 추적 헤드와 지도 부분을 사용하여 장애물과 지도 요소를 각각 디코딩하고 출력합니다. 그 후, 현재 프레임의 신뢰도가 높은 센싱 쿼리를 필터링 및 저장하고 이에 따라 메모리 뱅크를 업데이트하는 업데이트 프로세스가 수행되며, 이는 다음 프레임의 센싱 프로세스에 도움이 됩니다.
이러한 방식으로 SparseAD의 희소 인식 모듈은 운전 장면에 대한 효율적이고 정확한 인식을 달성하여 후속 모션 계획에 중요한 정보 기반을 제공합니다. 동시에 모듈은 메모리 뱅크의 과거 정보를 활용하여 인식의 정확성과 안정성을 더욱 향상시키고 자율 주행 시스템의 안정적인 작동을 보장할 수 있습니다.
장애물 인식 측면에서 추가적인 수동 후처리 없이 통합 디코더 내에서 관절 감지 및 추적이 채택됩니다. 검색 쿼리와 추적 쿼리 사이에는 상당한 불균형이 있으며, 이로 인해 검색 성능이 크게 저하될 수 있습니다. 위와 같은 문제점을 완화하기 위해 장애물 감지 성능을 다각도로 개선하였다. 첫째, 프레임 전체에 걸쳐 시간 정보를 전파하기 위해 2단계 메모리 메커니즘이 도입되었습니다. 그 중 장면 레벨 메모리는 프레임 간 상관 없이 쿼리 정보를 유지하는 반면, 인스턴스 레벨 메모리는 추적 장애물의 인접한 프레임 간의 대응성을 유지합니다. 둘째, 둘의 서로 다른 기원과 작업을 고려하여 장면 수준 메모리와 인스턴스 수준 메모리에 서로 다른 업데이트 전략이 채택됩니다. 특히 장면 수준 메모리는 MLN을 통해 업데이트되는 반면, 인스턴스 수준 메모리는 각 장애물에 대한 향후 예측으로 업데이트됩니다. 또한 훈련 중에 쿼리 추적을 위한 강화 전략을 채택하여 두 메모리 수준 간의 감독 균형을 유지함으로써 탐지 및 추적 성능을 향상시킵니다. 그런 다음 머리를 감지하고 추적함으로써 속성과 고유 ID가 포함된 3D 경계 상자를 감지 또는 추적 쿼리에서 디코딩한 다음 다운스트림 작업에서 추가로 사용할 수 있습니다.
온라인 지도 구축은 복잡하고 중요한 작업입니다. 현재 지식에 따르면 기존의 온라인 지도 구축 방법은 운전 환경을 표현하기 위해 조밀한 조감도(BEV) 기능에 주로 의존합니다. 이러한 접근 방식은 많은 양의 메모리와 컴퓨팅 리소스가 필요하기 때문에 감지 범위를 확장하거나 이력 정보를 활용하는 데 어려움이 있습니다. 우리는 모든 지도 요소가 희소 방식으로 표현될 수 있다고 굳게 믿으며 희소 패러다임 하에서 온라인 지도 구축을 완성하려고 노력합니다. 구체적으로 장애물 인식 작업과 동일한 시간적 디코더 구조가 채택됩니다. 처음에는 이전 카테고리가 포함된 지도 쿼리가 주행 평면에 균일하게 분포되도록 초기화됩니다. 시간 디코더에서 지도 쿼리는 센서 마커 및 기록 메모리 마커와 상호 작용합니다. 이러한 기록 메모리 마커는 실제로 이전 프레임의 매우 확실한 지도 쿼리로 구성됩니다. 그런 다음 업데이트된 맵 쿼리는 현재 프레임의 맵 요소에 대한 유효한 정보를 전달하고 향후 프레임이나 다운스트림 작업에 사용하기 위해 메모리 뱅크로 푸시될 수 있습니다.
분명히 온라인 지도 구축 과정은 장애물 인식 과정과 거의 동일합니다. 즉, 감지, 추적 및 온라인 지도 구성을 포함한 감지 작업은 더 큰 범위(예: 100m × 100m)로 확장하거나 장기간 융합할 때 더 효율적이며 복잡한 작업이 필요하지 않은 일반적인 희소 접근 방식으로 통합됩니다. (예: 변형 가능한 주의 또는 다지점 주의) 우리가 아는 한, 이는 통일된 감지 아키텍처에서 희박한 방식으로 온라인 지도 구성을 구현한 최초의 사례입니다. 그 후, 조각별 베지어 맵 헤드는 각 희소 맵 요소의 조각별 베지어 제어점을 반환하는 데 사용되며 이러한 제어점은 다운스트림 작업의 요구 사항을 충족하도록 쉽게 변환될 수 있습니다.
자율 주행 시스템의 모션 예측 및 계획 문제를 재검토한 결과 이전의 많은 방법이 주변 차량의 모션을 예측할 때 자율주행차의 역학을 무시했다는 사실을 발견했습니다. 이는 대부분의 상황에서 명백하지 않을 수 있지만 근처 차량과 자기 차량 사이에 긴밀한 상호 작용이 있는 교차로와 같은 시나리오에서는 잠재적인 위험이 될 수 있습니다. 이에 영감을 받아 보다 합리적인 모션 계획 프레임워크가 설계되었습니다. 이 프레임워크에서 모션 예측기는 주변 차량과 자체 차량의 모션을 동시에 예측합니다. 이후, 자신의 차량의 예측 결과는 후속 계획 최적화 프로그램의 사전 동작으로 사용됩니다. 계획 프로세스 중에 우리는 안전 및 역학 요구 사항을 모두 충족하는 최종 계획 결과를 생성하기 위해 제약 조건의 다양한 측면을 고려합니다.
그림 4에 표시된 것처럼 SparseAD의 모션 플래너는 인식 쿼리(궤적 쿼리 및 지도 쿼리 포함)를 현재 운전 장면의 희소 표현으로 처리합니다. 다중 모드 모션 쿼리는 운전 시나리오에 대한 이해, 모든 차량(자체 차량 포함) 간의 상호 작용에 대한 인식, 다양한 미래 가능성에 대한 게임을 가능하게 하는 매체로 사용됩니다. 그런 다음 차량의 다중 모드 모션 쿼리는 높은 수준의 지침, 안전 및 역학을 포함한 운전 제약 조건을 고려하는 계획 최적화 프로그램에 입력됩니다.
모션 예측기. 이전 방법에 따라 모션 쿼리와 현재 운전 장면 표현(궤적 쿼리 및 지도 쿼리 포함) 간의 인식 및 통합은 표준 변환기 레이어를 통해 달성됩니다. 또한, 미래 시공간 장면에서 주변 에이전트와 자가 차량 간의 상호 작용을 공동 모델링하기 위해 자가 차량 에이전트와 교차 모달 상호 작용을 적용합니다. 다층 스태킹 구조 내 및 간의 모듈 시너지를 통해 모션 쿼리는 정적 환경과 동적 환경 모두에서 풍부한 의미 정보를 집계할 수 있습니다.
위의 내용 외에도 모션 예측기의 성능을 더욱 향상시키기 위해 두 가지 전략도 도입되었습니다. 첫째, 주변 에이전트 모션 쿼리 초기화의 일부로 궤적 쿼리의 인스턴스 수준 시간 메모리를 사용하여 간단하고 직접적인 예측이 이루어집니다. 이러한 방식으로 모션 예측기는 업스트림 작업에서 얻은 사전 지식을 활용할 수 있습니다. 둘째, 엔드투엔드 메모리 라이브러리 덕분에 거의 무시할 수 있는 비용으로 에이전트 메모리 수집기를 통해 스트리밍 방식으로 저장된 기록 모션 쿼리로부터 유용한 정보를 동화할 수 있습니다.
이 자동차의 멀티모달 모션 쿼리도 동시에 업데이트된다는 점에 유의하세요. 이러한 방식으로, 자신의 차량 이전의 움직임을 얻을 수 있으며, 이는 계획 학습 과정을 더욱 촉진할 수 있습니다.
계획 최적화 도구. 모션 예측기가 제공하는 모션 사전을 사용하면 더 나은 초기화가 이루어지므로 훈련 중 우회 횟수가 줄어듭니다. 모션 플래너의 핵심 구성 요소인 비용 함수의 설계는 최종 성능의 품질에 큰 영향을 미치거나 결정하기 때문에 매우 중요합니다. 제안된 SparseAD 모션 플래너에서는 만족스러운 계획 결과 생성을 목표로 안전 및 동적 제약 사항을 주로 고려합니다. 특히 VAD에서 결정된 제약 조건 외에도 차량과 주변 에이전트 간의 동적 안전 관계에 중점을 두고 향후 순간의 상대적 위치를 고려합니다. 예를 들어, 에이전트 i가 차량을 기준으로 왼쪽 앞부분에 계속 남아 차량이 왼쪽으로 차선을 변경하는 것을 방지하는 경우 에이전트 i는 왼쪽 레이블을 획득하여 에이전트 i가 차량에 왼쪽 방향 제약을 가함을 나타냅니다. . 따라서 구속조건은 세로 방향에서는 앞, 뒤 또는 없음으로 분류되고, 가로 방향에서는 왼쪽, 오른쪽 또는 없음으로 분류됩니다. 플래너에서는 해당 쿼리를 통해 타 에이전트와 차량의 관계를 수평, 수직 방향으로 디코딩합니다. 이 프로세스에는 이러한 방향에서 다른 에이전트와 자신의 차량 사이의 모든 제약 조건의 확률을 결정하는 작업이 포함됩니다. 그런 다음 초점 손실을 Ego-Agent 관계(EAR)의 비용 함수로 사용하여 근처 에이전트가 가져오는 잠재적 위험을 효과적으로 포착합니다.
계획된 궤적은 제어 시스템 실행의 동적 법칙을 따라야 하므로, 모션 계획에서는 보조 작업이 기계에 내장되어 차량의 동적 상태에 대한 학습을 촉진합니다. 자체 차량 쿼리 Qego에서 속도, 가속도, 요 각도와 같은 상태를 디코딩하고 역학 손실을 사용하여 이러한 상태를 감독합니다. 방법의 우월성. 공정하게 말하자면, 각 완료된 작업의 성능을 평가하고 이전 방법과 비교합니다. 이 섹션의 실험에서는 SparseAD의 세 가지 구성, 즉 이미지 입력만 사용하는 SparseAD-B 및 SparseAD-L과 레이더 포인트 클라우드 및 이미지 다중 모드 입력을 사용하는 SparseAD-BR을 사용합니다. SparseAD-B와 SparseAD-BR 모두 이미지 백본 네트워크로 V2-99를 사용하며 입력 이미지 해상도는 1600 × 640입니다. SparseAD-L은 ViTLarge를 이미지 백본 네트워크로 사용하며 입력 이미지 해상도는 1600×800입니다.
nuScenes 검증 데이터 세트의 3D 탐지 및 3D 다중 대상 추적 결과는 다음과 같습니다. "추적 전용 방법"은 후처리 상관관계를 통해 추적되는 방법을 의미합니다. '엔드 투 엔드(End-to-End) 자율주행 방식'은 풀스택 자율주행 작업이 가능한 방식을 말한다. 표의 모든 방법은 전체 해상도 이미지 입력으로 평가됩니다. †: 결과는 공식 오픈 소스 코드를 통해 재현됩니다. -R: 레이더 포인트 클라우드 입력이 사용됨을 나타냅니다.
다중 작업 결과
장애물 인식. SparseAD의 탐지 및 추적 성능은 Tab 2에 설정된 nuScenes 검증에 대한 다른 방법과 비교됩니다. 분명히 SparseAD-B는 가장 널리 사용되는 감지 전용, 추적 전용 및 종단 간 다중 객체 추적 방법에서 우수한 성능을 발휘하는 동시에 해당 작업에 대해서는 StreamPETR 및 QTrack과 같은 SOTA 방법과 비교할 수 있는 성능을 발휘합니다. SparseAD-Large는 보다 발전된 백본 네트워크로 확장함으로써 mAP 53.6%, NDS 62.5%, AMOTA 60.6%로 전반적으로 더 나은 성능을 달성합니다. 이는 이전 최고의 방법인 Sparse4Dv3보다 전반적으로 더 좋습니다.
온라인 매핑. Tab. 3은 nuScenes 검증 세트에 대한 SparseAD와 다른 이전 방법 간의 온라인 매핑 성능을 비교한 결과를 보여줍니다. 계획 요구에 따라 경계를 도로 구간과 차선으로 세분화하고 별도로 평가하는 동시에 장애물 인식과 일치하도록 범위를 일반적인 60m × 30m에서 102.4m × 102.4m로 확장했다는 점에 주목해야 합니다. 공정성을 잃지 않으면서 SparseAD는 조밀한 BEV 표현 없이 희박한 엔드투엔드 방식으로 34.2% mAP를 달성합니다. 이는 성능 측면에서 HDMapNet, VectorMapNet 및 MapTR과 같은 이전에 널리 사용된 방법보다 우수합니다. 교육 비용 및 비용 측면에서. 성능은 StreamMapNet보다 약간 떨어지지만, 우리의 방법은 조밀한 BEV 표현 없이 균일한 희소 방식으로 온라인 매핑을 수행할 수 있음을 입증하며, 이는 상당히 낮은 비용으로 엔드투엔드 자율 주행을 실제로 배포하는 데 영향을 미칩니다. 물론 다른 양식(예: 레이더)의 유용한 정보를 효과적으로 활용하는 방법은 여전히 더 탐구할 가치가 있는 작업입니다. 우리는 아직은 희박한 방식으로 탐색할 여지가 많다고 믿습니다.
스포츠 예측. 모션 예측의 비교 결과는 표 4a에 표시되며, 여기서 지표는 VIP3D와 일치합니다. SparseAD는 가장 낮은 0.83m minADE, 1.58m minFDE, 18.7% 미스율, 가장 높은 0.308 EPA로 모든 엔드투엔드 방법 중에서 최고의 성능을 달성하는데 이는 큰 이점입니다. 또한 스파스 쿼리 센터 패러다임의 효율성과 확장성 덕분에 SparseAD는 더 많은 양식으로 효과적으로 확장하고 고급 백본 네트워크의 이점을 활용하여 예측 성능을 더욱 크게 향상시킬 수 있습니다.
계획. 계획 결과는 표 4b에 나와 있습니다. 업스트림 인식 모듈 및 모션 플래너의 우수한 설계 덕분에 SparseAD의 모든 버전은 nuScenes 검증 데이터 세트에서 최첨단 성능을 달성합니다. 특히 SparseAD-B는 UniAD 및 VAD를 포함한 다른 모든 방법에 비해 가장 낮은 평균 L2 오류 및 충돌률을 달성하며 이는 우리의 접근 방식과 아키텍처의 우수성을 입증합니다. 장애물 인식 및 동작 예측을 포함한 업스트림 작업과 유사하게 SparseAD는 레이더 또는 보다 강력한 백본 네트워크를 통해 성능을 더욱 향상시킵니다.
위 내용은 nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!