2022년 7월에 업로드된 arXiv 논문 "Wayformer: Motion Forecasting via Simple & Efficient Attention Networks"는 Google Waymo의 작품입니다.
복잡한 운전 시나리오로 인해 다양한 혼합 형태의 정적 및 동적 입력이 발생하기 때문에 자율 주행을 위한 동작 예측은 어려운 작업입니다. 도로 형상, 차선 연결성, 시간에 따라 변하는 신호등 상태, 동적 에이전트 세트 및 이들의 상호 작용에 대한 과거 정보를 어떻게 효율적으로 인코딩하고 표현하고 융합하는 것이 아직 해결되지 않은 문제입니다. 이러한 다양한 입력 기능 세트를 모델링하기 위해 다양한 양식별 모듈 세트를 사용하여 똑같이 복잡한 시스템을 설계하는 다양한 접근 방식이 있습니다. 이로 인해 엄격한 방식으로 품질과 효율성을 확장하거나 확장하거나 균형을 맞추는 것이 어려운 시스템이 탄생합니다.
이 기사의 Wayformer는 간단하고 유사한 주의 기반 모션 예측 아키텍처 시리즈입니다. Wayformer는 주의 기반 장면 인코더와 디코더로 구성된 컴팩트 모델 설명을 제공합니다. 장면 인코더에서는 입력 모드의 사전 융합, 사후 융합 및 계층적 융합의 선택이 연구됩니다. 각 융합 유형에 대해 분해 주의 또는 잠재 쿼리 주의를 통해 효율성과 품질을 절충하는 전략을 탐색합니다. 사전 융합 구조는 간단하고 모드에 구애받지 않을 뿐만 아니라 WOMD(Waymo Open Movement Dataset)와 Argoverse 리더보드 모두에서 최첨단 결과를 달성합니다.
운전 장면은 도로 정보, 신호등 상태, 에이전트 이력, 상호 작용 등 다중 모드 데이터로 구성됩니다. 양식의 경우 각 모델링된 에이전트(즉, 다른 도로 사용자의 표현)에 대한 "상황별 목표 세트"를 나타내는 Context4차원이 있습니다.
Intelligence History에는 현재 상태뿐만 아니라 일련의 과거 지능 상태도 포함되어 있습니다. 각 시간 단계에 대해 x, y, 속도, 가속도, 경계 상자 등과 같은 에이전트의 상태와 컨텍스트 차원을 정의하는 기능을 고려하세요.
상호작용 텐서는 에이전트 간의 관계를 나타냅니다. 각 모델링된 에이전트에 대해 모델링된 에이전트를 둘러싼 고정된 수의 가장 가까운 이웃 컨텍스트가 고려됩니다. 이러한 상황별 에이전트는 모델링된 에이전트의 동작에 영향을 미치는 에이전트를 나타냅니다.
Road map에는 에이전트 주변의 도로 특징이 포함되어 있습니다. 도로 지도 세그먼트는 끝점으로 지정되고 도로 모양과 유사한 유형 정보로 주석이 달린 세그먼트 모음인 폴리라인으로 표시됩니다. 모델링 에이전트에 가장 가까운 로드맵 세그먼트를 사용하십시오. 도로 특성에는 시간 차원이 없으며 시간 차원 1을 추가할 수 있다는 점에 유의하세요.
에이전트별로 신호등 정보에는 해당 에이전트와 가장 가까운 교통 신호 상태가 포함되어 있습니다. 각 교통 신호 지점에는 신호 위치와 신뢰 수준을 설명하는 기능이 있습니다.
Wayformer 모델 시리즈는 장면 인코더와 디코더의 두 가지 주요 구성 요소로 구성됩니다. 장면 인코더는 주로 운전 장면을 요약하는 데 사용되는 하나 이상의 주의 인코더로 구성됩니다. 디코더는 학습된 초기 쿼리를 입력한 다음 장면 인코딩 교차 주의를 사용하여 궤적을 생성하는 하나 이상의 표준 변환기 교차 주의 모듈입니다.
그림에 표시된 것처럼 Wayformer 모델은 다중 모드 입력을 처리하여 장면 인코딩을 생성합니다. 이 장면 인코딩은 디코더의 컨텍스트로 사용되어 출력 공간에서 다중 모드를 포괄하는 k개의 가능한 궤적을 생성합니다.
장면 인코더에 대한 입력이 다양하기 때문에 이러한 통합이 중요한 작업이 됩니다. 양식은 동일한 추상화 수준이나 규모({픽셀 대 대상 개체})로 표현되지 않을 수 있습니다. 따라서 일부 양식에는 다른 양식보다 더 많은 계산이 필요할 수 있습니다. 모드 간 계산 분해는 애플리케이션에 따라 다르며 엔지니어에게 매우 중요합니다. 이 프로세스를 단순화하기 위해 여기에서는 세 가지 융합 수준이 제안됩니다. 그림에 표시된 대로 {Post, Pre, Grade}:
Post fusion은 모션 예측 모델에 가장 일반적으로 사용되는 방법입니다. 전용 인코더. 이러한 인코더의 너비를 동일하게 설정하면 출력에 추가 프로젝션 레이어가 도입되는 것을 방지할 수 있습니다. 또한 모든 인코더에서 동일한 깊이를 공유함으로써 탐색 공간이 관리 가능한 크기로 줄어듭니다. 정보는 궤적 디코더의 교차 주의 계층에 있는 양식을 통해서만 전송될 수 있습니다.
Pre-fusion각 모달리티에 self-attention 인코더를 할당하는 대신 특정 모달리티의 매개변수가 프로젝션 레이어로 축소됩니다. 그림의 장면 인코더는 단일 self-attention 인코더("크로스 모달 인코더")로 구성되어 있어 네트워크가 최소 유도 바이어스를 유지하면서 양식 전반에 걸쳐 중요도를 할당하는 데 최대의 유연성을 가질 수 있습니다.
Hierarchical Fusion처음 두 극단 사이의 절충안으로 볼륨은 모달별 셀프 어텐션 인코더와 크로스 모달 인코더 사이의 계층적 방식으로 분해됩니다. 사후 융합에서 수행된 것처럼 너비와 깊이는 주의 인코더와 교차 모드 인코더에서 공유됩니다. 이는 모달별 인코더와 크로스 모달 인코더 간에 장면 인코더의 깊이를 효과적으로 분할합니다.
변환기 네트워크는 다음 두 가지 요인으로 인해 큰 다차원 시퀀스로 잘 확장되지 않습니다.
가속 방법은 아래에서 설명하며(S는 공간 차원, T는 시간 영역 차원), 해당 프레임워크는 그림과 같습니다.
다축 주의: 이것은 다음을 의미합니다. 기본적으로 공간적 차원과 시간적 차원 모두에서 self-attention을 적용하는 변환기 설정은 계산 비용이 가장 많이 들 것으로 예상됩니다. 다축 주의를 통한 전방, 후방 및 계층적 융합의 계산 복잡도는 O(Sm2×T2)입니다.
Factorized attention: self-attention의 계산 복잡성은 입력 시퀀스 길이의 2차입니다. 이는 각 추가 차원이 곱셈 인수만큼 입력 크기를 증가시키기 때문에 다차원 시퀀스에서 더욱 분명해집니다. 예를 들어 일부 입력 양식에는 시간 및 공간 차원이 있으므로 계산 비용은 O(Sm2×T2)로 확장됩니다. 이러한 상황을 완화하려면 두 가지 차원에 따라 주의를 분해하는 것이 좋습니다. 이 방법은 입력 시퀀스의 다차원 구조를 활용하고 각 차원에 개별적으로 self-attention을 적용하여 O(S2×T2)에서 O(S2)+O(T2)로 self-attention 하위 네트워크의 비용을 줄입니다.
분해된 Attention은 다축 Attention에 비해 계산 노력을 줄일 수 있는 잠재력이 있지만 각 차원의 순서에 Self-Attention을 적용하면 복잡성이 발생합니다. 여기서는 두 가지 분해된 어텐션 패러다임을 비교합니다.
Latent query attention: 대규모 입력 시퀀스의 계산 비용을 처리하는 또 다른 방법은 입력이 잠재 공간에 매핑되는 첫 번째 인코더 블록에서 잠재 쿼리를 사용하는 것입니다. 이러한 잠재 변수는 잠재 공간을 수신하고 반환하는 일련의 인코더 블록에 의해 추가로 처리됩니다. 이를 통해 잠재 공간 해상도를 완전히 자유롭게 설정할 수 있으므로 각 블록의 self-attention 구성 요소 및 위치 피드포워드 네트워크의 계산 비용이 줄어듭니다. 감소량(R=Lout/Lin)을 입력 시퀀스 길이의 백분율로 설정합니다. 사후 융합 및 계층적 융합에서 감소 인자 R은 모든 어텐션 인코더에 대해 변경되지 않은 상태로 유지됩니다.
Wayformer 예측기는 에이전트가 취할 수 있는 궤적을 나타내는 가우스 혼합을 출력합니다. 예측을 생성하기 위해, 학습된 초기 쿼리(Si) 세트를 입력하고 인코더의 장면 임베딩과 교차 주의를 수행하여 가우시안 혼합의 각 구성 요소에 대한 임베딩을 생성하는 Transformer 디코더가 사용됩니다. 혼합물에 특정 구성 요소가 포함되어 있는 경우 선형 투영 레이어는 해당 구성 요소의 비정규 로그 우도를 생성하여 전체 혼합 우도를 추정합니다. 궤적을 생성하기 위해 또 다른 선형 레이어 투영이 사용되어 각 시간 단계에서 예측된 가우스의 평균 및 로그 표준 편차에 해당하는 4개의 시계열을 출력합니다. 훈련 중에 손실을 각각의 분류 및 회귀 손실로 분해합니다. k개의 예측된 가우스를 가정하면 혼합 우도는 실제 궤적의 로그 확률을 최대화하도록 훈련됩니다. 예측기가 여러 모드의 가우스 혼합을 출력하는 경우 추론하기 어렵고 벤치마크 측정값은 고려되는 궤적 수를 제한하는 경우가 많습니다. 따라서 평가 프로세스 중에 궤적 집계가 적용되어 원래 출력 혼합의 다양성을 유지하면서 고려되는 모드 수를 줄입니다. 실험 결과는 다음과 같습니다. Decomposition Note Latent Query위 내용은 Wayformer: 모션 예측을 위한 간단하고 효과적인 주의 네트워크의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!