L'article arXiv « Wayformer : Motion Forecasting via Simple & Efficient Attention Networks », mis en ligne en juillet 2022, est l'œuvre de Google Waymo.
La prédiction de mouvement pour la conduite autonome est une tâche difficile car des scénarios de conduite complexes entraînent diverses formes mixtes d'entrées statiques et dynamiques. La meilleure façon de représenter et de fusionner les informations historiques sur la géométrie des routes, la connectivité des voies, les états des feux de circulation variables dans le temps et les ensembles dynamiques d'agents et leurs interactions dans des codages efficaces est un problème non résolu. Pour modéliser cet ensemble diversifié de fonctionnalités d’entrée, il existe de nombreuses approches pour concevoir des systèmes tout aussi complexes avec différents ensembles de modules spécifiques aux modalités. Il en résulte des systèmes difficiles à mettre à l’échelle, à faire évoluer ou à faire des compromis entre qualité et efficacité de manière rigoureuse.
Le Wayformer présenté dans cet article est une série d'architectures de prédiction de mouvement simples et similaires basées sur l'attention. Wayformer fournit une description de modèle compacte composée d'encodeurs et de décodeurs de scène basés sur l'attention. Dans l'encodeur de scène, la sélection de pré-fusion, post-fusion et fusion hiérarchique des modes d'entrée est étudiée. Pour chaque type de fusion, explorez des stratégies qui compromis entre efficacité et qualité grâce à l’attention à la décomposition ou à l’attention latente aux requêtes. La structure de pré-fusion est simple et non seulement indépendante du mode, mais permet également d'obtenir des résultats de pointe sur l'ensemble de données Waymo Open Movement Dataset (WOMD) et le classement Argoverse.
Les scènes de conduite sont composées de données multimodales, telles que les informations routières, l'état des feux de circulation, l'historique des agents et les interactions. Pour la modalité, il existe une 4ème dimension Contexte, qui représente « l'ensemble des objectifs contextuels » pour chaque agent modélisé (c'est-à-dire une représentation des autres usagers de la route).
L'histoire de l'intellect contient une série d'états intellectuels passés ainsi que l'état actuel. Pour chaque pas de temps, considérez les caractéristiques qui définissent l'état de l'agent, telles que x, y, la vitesse, l'accélération, le cadre de délimitation, etc., ainsi qu'une dimension de contexte.
Tenseur d'interaction représente la relation entre les agents. Pour chaque agent modélisé, un nombre fixe de contextes voisins les plus proches entourant l'agent modélisé sont pris en compte. Ces agents contextuels représentent des agents qui influencent le comportement de l'agent modélisé.
Feuille routière contient des éléments routiers autour de l'agent. Les segments de la carte routière sont représentés sous forme de polylignes, un ensemble de segments spécifiés par leurs extrémités et annotés avec des informations de type qui se rapprochent de la forme de la route. Utilisez le segment de feuille de route le plus proche de l'agent de modélisation. Veuillez noter que les entités routières n'ont pas de dimension temporelle et que la dimension temporelle 1 peut être ajoutée.
Pour chaque agent, Informations sur les feux tricolores contient l'état des feux de circulation les plus proches de l'agent. Chaque point de feu de circulation possède des caractéristiques qui décrivent l'emplacement et la fiabilité du signal.
Série de modèles Wayformer, composée de deux composants principaux : un encodeur de scène et un décodeur. L'encodeur de scène se compose principalement d'un ou plusieurs encodeurs d'attention, qui sont utilisés pour résumer la scène de conduite. Le décodeur est constitué d'un ou de plusieurs modules d'attention croisée de transformateur standard, qui saisissent la requête initiale apprise, puis génèrent des trajectoires avec une attention croisée de codage de scène.
Comme le montre la figure, le modèle Wayformer traite l'entrée multimodale pour produire un encodage de scène : cet encodage de scène est utilisé comme contexte du décodeur, générant k trajectoires possibles couvrant plusieurs modalités dans l'espace de sortie.
La diversité des entrées de l'encodeur de scène fait de cette intégration une tâche non triviale. Les modalités peuvent ne pas être représentées au même niveau d'abstraction ou à la même échelle : {pixels vs objets cibles}. Par conséquent, certaines modalités peuvent nécessiter plus de calculs que d’autres. La décomposition informatique entre les modes dépend de l'application et est très importante pour les ingénieurs. Trois niveaux de fusion sont proposés ici pour simplifier ce processus : {Post, Pre, Grade}, comme le montre la figure :
Post fusion est la méthode la plus couramment utilisée pour les modèles de prédiction de mouvement, où chaque modalité a sa propre encodeur dédié. Définir la largeur de ces encodeurs pour qu'elle soit égale évite d'introduire des couches de projection supplémentaires dans la sortie. De plus, en partageant la même profondeur sur tous les encodeurs, l’espace d’exploration est réduit à une taille gérable. Les informations ne peuvent être transférées qu'à travers les modalités de la couche d'attention croisée du décodeur de trajectoire.
Pré-fusionAu lieu de dédier un encodeur d'auto-attention à chaque modalité, les paramètres de la modalité spécifique sont réduits à la couche de projection. L'encodeur de scène sur la figure se compose d'un seul encodeur d'auto-attention (« l'encodeur multimodal »), permettant au réseau d'avoir une flexibilité maximale dans l'attribution d'importance entre les modalités tout en ayant un biais inductif minimal.
Fusion hiérarchiqueComme compromis entre les deux premiers extrêmes, le volume est décomposé de manière hiérarchique entre des encodeurs d'auto-attention spécifiques à une modalité et des encodeurs intermodaux. Comme cela se fait en post-fusion, la largeur et la profondeur sont partagées dans l'encodeur attentionnel et l'encodeur multimodal. Cela divise efficacement la profondeur de l'encodeur de scène entre les encodeurs spécifiques à une modalité et les encodeurs multimodaux.
Les réseaux de transformateurs ne s'adaptent pas bien aux grandes séquences multidimensionnelles en raison des deux facteurs suivants :
La méthode d'accélération est discutée ci-dessous (S est la dimension spatiale, T est la dimension du domaine temporel), et son cadre est comme le montre la figure :
Attention multi-axes : Cela fait référence à le paramètre par défaut Le paramètre du transformateur, qui applique l'auto-attention dans les dimensions spatiales et temporelles, devrait être le plus coûteux en termes de calcul. La complexité informatique de la fusion antérieure, postérieure et hiérarchique avec attention multi-axes est O(Sm2×T2).
Attention factorisée : La complexité informatique de l'auto-attention est le quadratique de la longueur de la séquence d'entrée. Cela devient encore plus évident dans les séquences multidimensionnelles, car chaque dimension supplémentaire augmente la taille de l'entrée d'un facteur multiplicatif. Par exemple, certaines modalités d’entrée ont des dimensions temporelles et spatiales, donc le coût de calcul évolue en O(Sm2×T2). Pour atténuer cette situation, envisagez de décomposer l’attention selon deux dimensions. Cette méthode exploite la structure multidimensionnelle de la séquence d'entrée et réduit le coût du sous-réseau d'auto-attention de O(S2×T2) à O(S2)+O(T2) en appliquant l'auto-attention dans chaque dimension individuellement.
Bien que l'attention décomposée ait le potentiel de réduire l'effort de calcul par rapport à l'attention multi-axes, la complexité est introduite lors de l'application de l'attention personnelle à l'ordre de chaque dimension. Nous comparons ici deux paradigmes d'attention décomposés :
Attention aux requêtes latentes : Une autre façon de gérer le coût de calcul des grandes séquences d'entrée consiste à utiliser des requêtes latentes dans le premier bloc d'encodeur, où l'entrée est mappée sur l'espace latent. Ces variables latentes sont ensuite traitées par une série de blocs d'encodeur qui reçoivent et renvoient l'espace latent. Cela permet une liberté totale dans la définition de la résolution de l’espace latent, réduisant ainsi le coût de calcul du composant d’auto-attention et du réseau de rétroaction positionnelle dans chaque bloc. Définissez le montant de la réduction (R=Lout/Lin) en pourcentage de la longueur de la séquence d'entrée. En post-fusion et en fusion hiérarchique, le facteur de réduction R reste inchangé pour tous les codeurs d'attention.
Le prédicteur Wayformer génère un mélange gaussien, représentant la trajectoire que l'agent peut emprunter. Pour générer des prédictions, un décodeur Transformer est utilisé, qui entre un ensemble de k requêtes initiales apprises (Si) et effectue une attention croisée avec les intégrations de scène du codeur pour générer des intégrations pour chaque composant du mélange gaussien. Étant donné l'intégration d'un composant spécifique dans un mélange, une couche de projection linéaire produit une log-vraisemblance non canonique de ce composant, estimant la vraisemblance totale du mélange. Pour générer des trajectoires, une autre projection de couche linéaire est utilisée, produisant 4 séries temporelles correspondant à la moyenne et à l'écart type logarithmique de la gaussienne prédite à chaque pas de temps. Lors de l'entraînement, la perte est décomposée en pertes respectives de classification et de régression. En supposant k gaussiennes prédites, la vraisemblance du mélange est entraînée pour maximiser la probabilité logarithmique de la vraie trajectoire. Si le prédicteur produit un mélange de gaussiennes avec plusieurs modes, il est difficile de raisonner, et les mesures de référence limitent souvent le nombre de trajectoires considérées. Par conséquent, au cours du processus d’évaluation, l’agrégation des trajectoires est appliquée, réduisant ainsi le nombre de modes considérés tout en conservant la diversité du mélange de sorties d’origine. Les résultats expérimentaux sont les suivants : Note de décomposition Requête latenteCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!