성능과 효율성이 크게 향상된 HiVT의 진화된 버전(HiVT를 먼저 읽지 않고도 이 기사를 직접 읽을 수 있음).
글도 읽기 쉽습니다.
[궤적 예측 시리즈] [참고] HiVT: 다중 에이전트 모션 예측을 위한 계층적 벡터 변환기 - Zhihu (zhihu.com)
원본 링크:
https://openaccess.thecvf.com/content/CVPR2023/ papers /Zhou_Query-Centric_Trajectory_Prediction_CVPR_2023_paper.pdf
에이전트를 예측 센터로 사용하는 모델에는 창이 이동할 때 에이전트 센터로 정규화하기 위해 여러 번 반복해야 하는 문제가 있습니다. 그런 다음 인코딩 프로세스를 반복하십시오. 온보드 사용에는 적합하지 않습니다. 따라서 우리는 계산된 결과를 재사용할 수 있고 글로벌 시간 좌표계에 의존하지 않는 쿼리 중심 프레임워크를 장면 인코딩에 사용합니다. 동시에 장면 특징이 서로 다른 에이전트 간에 공유되기 때문에 에이전트의 궤적 디코딩 프로세스가 더 병렬적으로 처리될 수 있습니다.
장면이 복잡하게 인코딩되어 있으며 현재 디코딩 방법으로는 특히 장기 예측의 경우 모드 정보를 캡처하기가 여전히 어렵습니다. 이 문제를 해결하기 위해 먼저 앵커 없는 쿼리를 사용하여 궤적 제안(단계별 특징 추출 방법)을 생성하여 모델이 다양한 시간에 장면 특징을 더 잘 활용할 수 있도록 합니다. 그런 다음 이전 단계에서 얻은 제안을 사용하여 궤적을 최적화하는 조정 모듈이 있습니다(동적 앵커 기반). 이러한 고품질 앵커를 통해 쿼리 기반 디코더는 모드의 특성을 더 잘 처리할 수 있습니다.
순위가 성공적으로 매겨졌습니다. 이 디자인은 또한 시나리오 기능 인코딩 및 병렬 다중 에이전트 디코딩 파이프라인을 구현합니다.
현재의 궤적 예측지는 다음과 같은 문제점을 가지고 있습니다.
위의 문제를 해결하기 위해 우리는 QCNet을 제안했습니다.
우선, 우리는 강력한 Factorized attention을 잘 활용하면서 onboard의 추론 속도를 향상시키고 싶습니다. 과거의 에이전트 중심 인코딩 방법은 분명히 작동하지 않습니다. 다음 데이터 프레임이 도착하면 창이 이동하지만 여전히 이전 프레임과 크게 겹치므로 이러한 기능을 재사용할 수 있는 기회가 있습니다. 하지만 에이전트 중심 방식은 에이전트 좌표계로 전환해야 하므로 장면을 다시 인코딩해야 합니다. 이 문제를 해결하기 위해 우리는 쿼리 중심 방법을 사용합니다. 장면 요소는 전역 좌표계(자아가 어디에 있는지는 중요하지 않음)에 관계없이 자체 시공간 좌표계 내에서 특징을 추출합니다. (지도 요소에는 장기 ID가 있으므로 고정밀 지도를 사용할 수 있습니다. HD가 아닌 지도는 유용하지 않을 수 있습니다. 지도 요소는 이전 프레임과 다음 프레임에서 추적해야 합니다.)
이를 통해 이전에 처리된 결과는 재사용되며 에이전트는 이러한 캐시의 기능을 직접 사용하므로 대기 시간이 절약됩니다.
두 번째로, 다중 모드 장기 예측을 위해 이러한 장면 인코딩 결과를 더 잘 사용하기 위해 앵커 없는 쿼리를 사용하여 장면 특징을 단계별로(이전 위치에서) 추출하므로 모든 디코드는 아주 짧은 걸음. 이 접근 방식을 사용하면 미래의 여러 순간의 위치를 고려하기 위해 멀리 있는 특징을 추출하는 대신 장면의 특징 추출이 미래 에이전트의 특정 위치에 집중할 수 있습니다. 이렇게 얻은 고품질 앵커는 다음 Refine 모듈에서 세밀하게 조정될 예정입니다. 이 앵커 없는 방식과 앵커 기반의 조합은 두 가지 방법의 장점을 최대한 활용하여 다중 모드 및 장기 예측을 달성합니다.
이 접근 방식은 고속 추론을 달성하기 위해 궤적 예측의 연속성을 탐색하는 최초의 접근 방식입니다. 동시에 디코더 부분은 다중 모드 및 장기 예측 작업도 고려합니다.
동시에 예측 모듈은 고정밀 지도에서 M개의 다각형을 얻을 수도 있습니다. 각 다각형에는 여러 지점과 의미 정보(횡단보도, 차선 등)가 있습니다.
예측 모듈은 위의 에이전트 상태와 T 순간의 맵 정보를 사용하여 총 길이가 T'인 K개의 예측 궤적과 확률 분포를 제공합니다.
첫 번째 단계는 자연스럽게 장면을 인코딩하는 것입니다. 현재 인기 있는 Factorized attention(각각 시간 차원과 공간 차원에서의 주의)은 이러한 방식으로 수행됩니다. 구체적으로 세 가지 단계가 있습니다:
Local Spacetime Coordinate System
장면 요소 삽입
Relative Spatial-Temporal Positional Embedding
Map Encoding을 위한 Self-Attention
Factorized Attention for Agent Encoding
Nearby는 상담원 주변 50m 이내로 정의됩니다. 총 횟수가 수행됩니다.
위의 방법을 통해 얻은 특징은 시공간 불변성을 갖는다는 점, 즉 자아가 언제 어디로 가든지 현재 위치 정보를 기준으로 한 이동이나 회전이 없기 때문에 위의 특징은 변하지 않는다는 점에 주목할 필요가 있습니다. 이전 프레임과 비교하여 새로운 데이터 프레임만 있으므로 이전 순간의 특징을 계산할 필요가 없으므로 전체 계산 복잡도를 T로 나눕니다.
특정 키 값에 주의를 기울이는 DETR의 앵커 프리 쿼리 방법과 유사하게 훈련이 불안정하고 모드 붕괴 문제가 발생하며 장기적인 예측도 어렵습니다. 불확실성은 나중에 폭발할 것이기 때문에 신뢰할 수 없습니다. 따라서 이 모델은 먼저 대략적인 앵커 없는 쿼리 방법을 사용한 다음 이 출력에 대해 앵커 기반 방법을 개선합니다.
전체 네트워크 구조
Mode2Scene은 두 단계 모두에서 DETR 구조를 사용합니다. 쿼리는 K 궤적 모드입니다(대략적인 제안 단계는 직접 무작위로 생성되고 개선 단계는 제안에서 얻음) 기능을 입력으로 단계화한 다음 장면 기능(에이전트 기록, 지도, 주변 에이전트)에 대해 다중 교차 주의를 수행합니다.
DETR 구조
Mode2Mode는 K 모드 중에서 Self Attention을 수행하여 모드 간의 다양성을 실현하여 모든 모드를 하나로 모으지 않도록 노력합니다.
여러 에이전트의 궤적을 병렬로 예측하기 위해 장면의 인코딩은 여러 에이전트가 공유합니다. 장면 기능은 모두 그 자체와 관련된 기능이므로 사용하려면 에이전트의 관점으로 전환해야 합니다. 모드 쿼리의 경우 에이전트의 위치 및 방향 정보가 추가됩니다. 이전의 상대 위치 인코딩 작업과 유사하게 장면 요소와 에이전트의 상대 위치 정보도 키와 값으로 포함됩니다. (직관적으로 말하면, 주변 정보 사용에 대한 에이전트의 각 모드의 가중치 관심)
첫 번째는 Anchor Free 방법으로 학습 가능한 쿼리를 사용하여 상대적으로 낮은 경로를 생성합니다. 품질 궤적 제안은 총 K개의 제안을 생성합니다. Cross Attention은 장면 정보에서 특징을 추출하는 데 사용되므로 상대적으로 작고 효과적인 앵커를 효율적으로 생성하여 두 번째 리파인에 사용할 수 있습니다. 자기 관심은 각 제안을 전체적으로 더욱 다양하게 만듭니다.
Anchor Free 방식은 상대적으로 간단하지만 훈련이 불안정하고 모드 붕괴가 발생할 수 있다는 문제도 있습니다. 동시에 무작위로 생성된 모드는 전체 장면의 다양한 에이전트에 대해 잘 수행될 수 있어야 하며 이는 어렵고 운동학이나 교통과 일치하지 않는 궤적 제안을 생성하기 쉽습니다. 그래서 우리는 또 다른 앵커 기반 수정을 생각했습니다. 제안(수정된 궤도를 얻기 위해 원래 제안에 추가됨)을 기반으로 오프셋을 예측하고 각각의 새로운 궤도의 확률을 예측합니다.
이 모듈도 DETR 형식을 사용합니다. 이전 단계의 제안을 사용하여 각 모드의 쿼리를 추출합니다. 구체적으로 각 앵커를 삽입(단계 전진)하는 데 사용되며 끝까지 사용됩니다. 순간의 특징이 쿼리 역할을 합니다. 이러한 앵커 기반 쿼리는 특정 공간 정보를 제공하여 주의를 기울이는 동안 유용한 정보를 더 쉽게 캡처할 수 있습니다.
HiVT와 동일합니다(HiVT의 분석 참조). Laplace 분포를 사용합니다. 직설적으로 말하면, 각 모드의 각 순간은 라플라스 분포(일반 가우스 분포 참조, 여기서 평균과 var는 이 점의 위치와 불확실성을 나타냄)로 모델링됩니다. 그리고 적률은 독립적인(직접 곱한) 것으로 간주됩니다. Π는 해당 모드의 확률을 나타냅니다.
손실은 3가지 부분으로 구성됩니다
크게 분류 손실과 회귀 손실 두 부분으로 나뉩니다.
분류 손실은 예측 확률의 손실을 의미합니다. 여기서 주목해야 할 점은 그라디언트 반환을 중단해야 하며 확률로 인한 그라데이션은 좌표 예측에 전달할 수 없다는 것입니다. 각 모드의 예상 위치는 합리적인 전제하에 있습니다). gt에 가장 가까운 레이블은 1이고 나머지 레이블은 0입니다.
회귀 손실은 두 가지가 있는데, 하나는 1단계 제안의 손실이고, 다른 하나는 2단계 정제의 손실입니다. 승자 독식 방식이 채택되었습니다. 즉, gt에 가장 가까운 모드의 손실만 계산하고 두 단계의 회귀 손실을 계산합니다. 훈련의 안정성을 위해 그래디언트 리턴도 두 단계에서 중단되므로 제안 학습은 제안만 학습하고 정제는 정제만 학습합니다.
Experimentsb-minFDE와 minFDE의 차이점은 확률과 관련된 추가 계수를 곱한다는 점입니다. 목표는 FDE가 가장 작기를 원합니다. 해당 궤도의 확률이 높을수록 좋습니다.
앙상블 테크닉에 관해서는 약간 부정확한 느낌이 듭니다. 아래에 간략하게 소개된 BANet의 소개를 참고하시면 됩니다.
궤적 생성의 마지막 단계는 동일한 구조를 가진 여러 하위 모델(디코더)을 동시에 연결하는 것입니다. 그러면 여러 예측 세트가 제공됩니다. 예를 들어 각각 6개의 예측이 포함된 7개의 하위 모델이 있으며 총 42개입니다. . 그런 다음 kmeans를 사용하여 클러스터링을 수행합니다(마지막 좌표점을 클러스터링 기준으로 사용). 목표는 6개 그룹, 각 그룹당 7개 항목이며, 각 그룹에서 가중 평균을 수행하여 새로운 궤적을 얻습니다.
가중치 방법은 현재 궤적의 b-minFDE와 gt이며, c는 각 그룹별로 가중치를 계산한 후 궤적 좌표를 합산합니다. 새로운 궤도를 얻습니다. (c는 실제로 하위 모델 출력에서 이 궤도의 확률이고 클러스터링에 사용될 때 기대와 약간 일치하지 않기 때문에 약간 까다롭게 느껴집니다.)
그리고 이 작업 후 새로운 궤도의 확률은 다음과 같습니다. 또한 정확하게 계산하기 어렵기 때문에 위의 방법을 사용할 수 없습니다. 그렇지 않으면 총 확률 합계가 반드시 1이 될 수는 없습니다. 동일한 가중치를 가진 클러스터에서만 확률을 계산할 수 있는 것 같습니다.
Argoverse1도 훨씬 앞서있습니다
장면 인코딩 연구: 이전 장면 인코딩 결과를 재사용하면 추론 시간을 대폭 줄일 수 있습니다. 에이전트와 장면 정보 사이의 Factorized attention 상호 작용 횟수가 증가하고 예측 효과도 좋아지지만 지연 시간도 급격히 증가하므로 가중치를 둘 필요가 있습니다.
다양한 작업에 대한 연구: 다양한 상호작용에서 정제의 중요성과 요인화된 주의의 중요성을 입증하는 것은 둘 다 필수 불가결합니다.
위 내용은 궤도 예측 시리즈 | HiVT QCNet의 진화된 버전은 무엇에 대해 이야기합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!