Wayformer: 모션 예측을 위한 간단하고 효과적인 주의 네트워크
2022년 7월에 업로드된 arXiv 논문 "Wayformer: Motion Forecasting via Simple & Efficient Attention Networks"는 Google Waymo의 작품입니다.
복잡한 운전 시나리오로 인해 다양한 혼합 형태의 정적 및 동적 입력이 발생하기 때문에 자율 주행을 위한 동작 예측은 어려운 작업입니다. 도로 형상, 차선 연결성, 시간에 따라 변하는 신호등 상태, 동적 에이전트 세트 및 이들의 상호 작용에 대한 과거 정보를 어떻게 효율적으로 인코딩하고 표현하고 융합하는 것이 아직 해결되지 않은 문제입니다. 이러한 다양한 입력 기능 세트를 모델링하기 위해 다양한 양식별 모듈 세트를 사용하여 똑같이 복잡한 시스템을 설계하는 다양한 접근 방식이 있습니다. 이로 인해 엄격한 방식으로 품질과 효율성을 확장하거나 확장하거나 균형을 맞추는 것이 어려운 시스템이 탄생합니다.
이 기사의 Wayformer는 간단하고 유사한 주의 기반 모션 예측 아키텍처 시리즈입니다. Wayformer는 주의 기반 장면 인코더와 디코더로 구성된 컴팩트 모델 설명을 제공합니다. 장면 인코더에서는 입력 모드의 사전 융합, 사후 융합 및 계층적 융합의 선택이 연구됩니다. 각 융합 유형에 대해 분해 주의 또는 잠재 쿼리 주의를 통해 효율성과 품질을 절충하는 전략을 탐색합니다. 사전 융합 구조는 간단하고 모드에 구애받지 않을 뿐만 아니라 WOMD(Waymo Open Movement Dataset)와 Argoverse 리더보드 모두에서 최첨단 결과를 달성합니다.
운전 장면은 도로 정보, 신호등 상태, 에이전트 이력, 상호 작용 등 다중 모드 데이터로 구성됩니다. 양식의 경우 각 모델링된 에이전트(즉, 다른 도로 사용자의 표현)에 대한 "상황별 목표 세트"를 나타내는 Context4차원이 있습니다.
Intelligence History에는 현재 상태뿐만 아니라 일련의 과거 지능 상태도 포함되어 있습니다. 각 시간 단계에 대해 x, y, 속도, 가속도, 경계 상자 등과 같은 에이전트의 상태와 컨텍스트 차원을 정의하는 기능을 고려하세요.
상호작용 텐서는 에이전트 간의 관계를 나타냅니다. 각 모델링된 에이전트에 대해 모델링된 에이전트를 둘러싼 고정된 수의 가장 가까운 이웃 컨텍스트가 고려됩니다. 이러한 상황별 에이전트는 모델링된 에이전트의 동작에 영향을 미치는 에이전트를 나타냅니다.
Road map에는 에이전트 주변의 도로 특징이 포함되어 있습니다. 도로 지도 세그먼트는 끝점으로 지정되고 도로 모양과 유사한 유형 정보로 주석이 달린 세그먼트 모음인 폴리라인으로 표시됩니다. 모델링 에이전트에 가장 가까운 로드맵 세그먼트를 사용하십시오. 도로 특성에는 시간 차원이 없으며 시간 차원 1을 추가할 수 있다는 점에 유의하세요.
에이전트별로 신호등 정보에는 해당 에이전트와 가장 가까운 교통 신호 상태가 포함되어 있습니다. 각 교통 신호 지점에는 신호 위치와 신뢰 수준을 설명하는 기능이 있습니다.
Wayformer 모델 시리즈는 장면 인코더와 디코더의 두 가지 주요 구성 요소로 구성됩니다. 장면 인코더는 주로 운전 장면을 요약하는 데 사용되는 하나 이상의 주의 인코더로 구성됩니다. 디코더는 학습된 초기 쿼리를 입력한 다음 장면 인코딩 교차 주의를 사용하여 궤적을 생성하는 하나 이상의 표준 변환기 교차 주의 모듈입니다.
그림에 표시된 것처럼 Wayformer 모델은 다중 모드 입력을 처리하여 장면 인코딩을 생성합니다. 이 장면 인코딩은 디코더의 컨텍스트로 사용되어 출력 공간에서 다중 모드를 포괄하는 k개의 가능한 궤적을 생성합니다.
장면 인코더에 대한 입력이 다양하기 때문에 이러한 통합이 중요한 작업이 됩니다. 양식은 동일한 추상화 수준이나 규모({픽셀 대 대상 개체})로 표현되지 않을 수 있습니다. 따라서 일부 양식에는 다른 양식보다 더 많은 계산이 필요할 수 있습니다. 모드 간 계산 분해는 애플리케이션에 따라 다르며 엔지니어에게 매우 중요합니다. 이 프로세스를 단순화하기 위해 여기에서는 세 가지 융합 수준이 제안됩니다. 그림에 표시된 대로 {Post, Pre, Grade}:
Post fusion은 모션 예측 모델에 가장 일반적으로 사용되는 방법입니다. 전용 인코더. 이러한 인코더의 너비를 동일하게 설정하면 출력에 추가 프로젝션 레이어가 도입되는 것을 방지할 수 있습니다. 또한 모든 인코더에서 동일한 깊이를 공유함으로써 탐색 공간이 관리 가능한 크기로 줄어듭니다. 정보는 궤적 디코더의 교차 주의 계층에 있는 양식을 통해서만 전송될 수 있습니다.
Pre-fusion각 모달리티에 self-attention 인코더를 할당하는 대신 특정 모달리티의 매개변수가 프로젝션 레이어로 축소됩니다. 그림의 장면 인코더는 단일 self-attention 인코더("크로스 모달 인코더")로 구성되어 있어 네트워크가 최소 유도 바이어스를 유지하면서 양식 전반에 걸쳐 중요도를 할당하는 데 최대의 유연성을 가질 수 있습니다.
Hierarchical Fusion처음 두 극단 사이의 절충안으로 볼륨은 모달별 셀프 어텐션 인코더와 크로스 모달 인코더 사이의 계층적 방식으로 분해됩니다. 사후 융합에서 수행된 것처럼 너비와 깊이는 주의 인코더와 교차 모드 인코더에서 공유됩니다. 이는 모달별 인코더와 크로스 모달 인코더 간에 장면 인코더의 깊이를 효과적으로 분할합니다.
변환기 네트워크는 다음 두 가지 요인으로 인해 큰 다차원 시퀀스로 잘 확장되지 않습니다.
- (a) Self-attention은 입력 시퀀스 길이에 대해 2차입니다.
- (b) 위치 피드포워드 네트워크는 비용이 많이 드는 하위 네트워크입니다.
가속 방법은 아래에서 설명하며(S는 공간 차원, T는 시간 영역 차원), 해당 프레임워크는 그림과 같습니다.
다축 주의: 이것은 다음을 의미합니다. 기본적으로 공간적 차원과 시간적 차원 모두에서 self-attention을 적용하는 변환기 설정은 계산 비용이 가장 많이 들 것으로 예상됩니다. 다축 주의를 통한 전방, 후방 및 계층적 융합의 계산 복잡도는 O(Sm2×T2)입니다.
Factorized attention: self-attention의 계산 복잡성은 입력 시퀀스 길이의 2차입니다. 이는 각 추가 차원이 곱셈 인수만큼 입력 크기를 증가시키기 때문에 다차원 시퀀스에서 더욱 분명해집니다. 예를 들어 일부 입력 양식에는 시간 및 공간 차원이 있으므로 계산 비용은 O(Sm2×T2)로 확장됩니다. 이러한 상황을 완화하려면 두 가지 차원에 따라 주의를 분해하는 것이 좋습니다. 이 방법은 입력 시퀀스의 다차원 구조를 활용하고 각 차원에 개별적으로 self-attention을 적용하여 O(S2×T2)에서 O(S2)+O(T2)로 self-attention 하위 네트워크의 비용을 줄입니다.
분해된 Attention은 다축 Attention에 비해 계산 노력을 줄일 수 있는 잠재력이 있지만 각 차원의 순서에 Self-Attention을 적용하면 복잡성이 발생합니다. 여기서는 두 가지 분해된 어텐션 패러다임을 비교합니다.
- 순차적 어텐션: N 레이어 인코더는 N/2 시간 인코더 블록과 또 다른 N/2 공간 인코더 블록으로 구성됩니다.
- 인터리브 어텐션: N 레이어 인코더는 N/2번 교대로 반복되는 시간 및 공간 인코더 블록으로 구성됩니다.
Latent query attention: 대규모 입력 시퀀스의 계산 비용을 처리하는 또 다른 방법은 입력이 잠재 공간에 매핑되는 첫 번째 인코더 블록에서 잠재 쿼리를 사용하는 것입니다. 이러한 잠재 변수는 잠재 공간을 수신하고 반환하는 일련의 인코더 블록에 의해 추가로 처리됩니다. 이를 통해 잠재 공간 해상도를 완전히 자유롭게 설정할 수 있으므로 각 블록의 self-attention 구성 요소 및 위치 피드포워드 네트워크의 계산 비용이 줄어듭니다. 감소량(R=Lout/Lin)을 입력 시퀀스 길이의 백분율로 설정합니다. 사후 융합 및 계층적 융합에서 감소 인자 R은 모든 어텐션 인코더에 대해 변경되지 않은 상태로 유지됩니다.
Wayformer 예측기는 에이전트가 취할 수 있는 궤적을 나타내는 가우스 혼합을 출력합니다. 예측을 생성하기 위해, 학습된 초기 쿼리(Si) 세트를 입력하고 인코더의 장면 임베딩과 교차 주의를 수행하여 가우시안 혼합의 각 구성 요소에 대한 임베딩을 생성하는 Transformer 디코더가 사용됩니다. 혼합물에 특정 구성 요소가 포함되어 있는 경우 선형 투영 레이어는 해당 구성 요소의 비정규 로그 우도를 생성하여 전체 혼합 우도를 추정합니다. 궤적을 생성하기 위해 또 다른 선형 레이어 투영이 사용되어 각 시간 단계에서 예측된 가우스의 평균 및 로그 표준 편차에 해당하는 4개의 시계열을 출력합니다. 훈련 중에 손실을 각각의 분류 및 회귀 손실로 분해합니다. k개의 예측된 가우스를 가정하면 혼합 우도는 실제 궤적의 로그 확률을 최대화하도록 훈련됩니다. 예측기가 여러 모드의 가우스 혼합을 출력하는 경우 추론하기 어렵고 벤치마크 측정값은 고려되는 궤적 수를 제한하는 경우가 많습니다. 따라서 평가 프로세스 중에 궤적 집계가 적용되어 원래 출력 혼합의 다양성을 유지하면서 고려되는 모드 수를 줄입니다. 실험 결과는 다음과 같습니다.위 내용은 Wayformer: 모션 예측을 위한 간단하고 효과적인 주의 네트워크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.
