Titre original : Le statut Ego est-il tout ce dont vous avez besoin pour une conduite autonome de bout en bout en boucle ouverte ?
Lien papier : https://arxiv.org/abs/2312.03031
Lien code : https://github. com/NVlabs/BEV-Planner
Affiliation de l'auteur : Nanjing University NVIDIA
La conduite autonome de bout en bout est récemment apparue comme une direction de recherche prometteuse, visant à poursuivre une approche full-stack automatisation des perspectives. Dans cette optique, de nombreux travaux récents suivent un cadre d'évaluation en boucle ouverte pour étudier le comportement de planification sur nuScenes. Cet article explore cette question plus en profondeur en effectuant une analyse approfondie et en révélant le puzzle plus en détail. Cet article a initialement observé que l'ensemble de données nuScenes, qui présente des scènes de conduite relativement simples, conduit à une sous-utilisation des informations perceptuelles dans les modèles de bout en bout qui intègrent le statut du moi, comme la vitesse du moi. Ces modèles ont tendance à s’appuyer principalement sur l’état du véhicule autonome pour la planification future des itinéraires. Outre les limites de l'ensemble de données, le document note que les indicateurs actuels ne fournissent pas une évaluation complète de la qualité de la planification, ce qui conduit à des conclusions potentiellement biaisées tirées des références existantes. Pour résoudre ce problème, cet article introduit une nouvelle métrique pour évaluer si la trajectoire prédite suit la route. Cet article propose en outre une base de référence simple capable d'obtenir des résultats compétitifs sans s'appuyer sur des annotations perceptuelles. Compte tenu des limites des critères et mesures existants, cet article recommande à la communauté universitaire de réévaluer la recherche dominante pertinente et d’examiner attentivement si la recherche continue d’une technologie de pointe produira des conclusions générales convaincantes.
Le modèle de conduite autonome en boucle ouverte basé sur nuScenes est significativement affecté par l'état du véhicule (vitesse, accélération, angle de lacet), et ces facteurs jouent un rôle clé dans la planification des performances. Lorsque l’état du véhicule autonome est impliqué, la prédiction de trajectoire du modèle est principalement contrôlée par celui-ci, ce qui peut conduire à une utilisation réduite des informations sensorielles.
Les mesures de planification existantes peuvent ne pas évaluer pleinement les performances réelles du modèle. Il peut y avoir des différences significatives dans les résultats d’évaluation des modèles selon différents indicateurs. Par conséquent, il est recommandé d’introduire des indicateurs plus diversifiés et plus complets pour évaluer les performances du modèle afin d’éviter que le modèle ne fonctionne bien que sous certains indicateurs et ignore d’autres risques potentiels.
Par rapport à l'obtention de performances de pointe sur l'ensemble de données nuScenes existant, le développement d'ensembles de données et de métriques plus applicables est considéré comme un défi plus critique et plus urgent.
L'objectif de la conduite autonome de bout en bout est de considérer de manière globale la perception et la planification et de les mettre en œuvre de manière full-stack [1, 5, 32, 35]. La motivation fondamentale est de considérer la perception des véhicules autonomes (VA) comme un moyen d'atteindre un objectif (planification), plutôt que de trop s'appuyer sur une mesure de perception pour l'ajustement.
Contrairement à la perception, la planification est généralement plus ouverte et difficile à quantifier [6, 7]. Idéalement, la nature ouverte de la planification prendra en charge une configuration d'évaluation en boucle fermée dans laquelle d'autres agents peuvent réagir au comportement du véhicule autonome et les données brutes des capteurs peuvent changer en conséquence. Cependant, la modélisation du comportement des agents et la simulation de données du monde réel [8, 19] dans des simulateurs en boucle fermée restent jusqu'à présent des problèmes non résolus. Par conséquent, l’évaluation en boucle fermée introduit inévitablement des écarts considérables par rapport au monde réel.
D'autre part, l'évaluation en boucle ouverte vise à traiter la conduite humaine comme une situation réelle et à formuler la planification comme un apprentissage par imitation [13]. Cette représentation permet une utilisation directe d'ensembles de données du monde réel via une simple relecture de journaux, évitant ainsi les lacunes de domaine des simulations. Il offre également d'autres avantages, tels que la capacité d'entraîner et de valider des modèles dans des scénarios de trafic complexes et diversifiés qui sont souvent difficiles à générer avec une haute fidélité dans les simulations [5]. En raison de ces avantages, un domaine de recherche établi se concentre sur la conduite autonome de bout en bout en boucle ouverte à l'aide d'ensembles de données du monde réel [2, 12, 13, 16, 43].
Les méthodes de conduite autonome de bout en bout actuellement populaires [12, 13, 16, 43] utilisent généralement nuScenes[2] pour l'évaluation en boucle ouverte de leurs comportements de planification. Par exemple, UniAD [13] a étudié l'impact de différents modules de tâches de perception sur le comportement de planification final. Cependant, ADMLP [45] a récemment souligné qu'un simple réseau MLP peut également obtenir des résultats de planification de pointe en s'appuyant uniquement sur les informations sur le statut de l'ego. Cela a inspiré cet article pour soulever une question importante :
La conduite autonome de bout en bout en boucle ouverte nécessite-t-elle uniquement des informations sur le statut de l'ego ?
La réponse à cet article est oui et non, en tenant compte des avantages et des inconvénients de l'utilisation des informations sur le statut de l'ego dans les benchmarks actuels :
Oui. Les informations du statut de l'ego, telles que la vitesse, l'accélération et l'angle de lacet, devraient évidemment être bénéfiques à l'exécution des tâches de planification. Pour vérifier cela, cet article résout un problème ouvert d’AD-MLP et supprime l’utilisation de vérités fondamentales de trajectoire historique (GT) pour éviter les fuites potentielles d’étiquettes. Le modèle reproduit dans cet article, Ego-MLP (Figure 1 a.2), repose uniquement sur le statut du moi et est comparable aux méthodes de pointe en termes de mesures de distance L2 et de taux de collision existantes. Une autre observation est que seules les méthodes existantes [13, 16, 43] qui intègrent des informations sur le statut du moi dans le module de planification peuvent obtenir des résultats comparables à ceux de l'Ego-MLP. Bien que ces méthodes utilisent des informations perceptuelles supplémentaires (suivi, cartes HD, etc.), elles ne se sont pas révélées supérieures à l'Ego-MLP. Ces observations vérifient le rôle dominant du statut du moi dans l’évaluation en boucle ouverte de la conduite autonome de bout en bout.
Non. Évidemment, en tant qu'application critique pour la sécurité, la conduite autonome ne doit pas s'appuyer uniquement sur le statut de l'ego lors de la prise de décision. Alors pourquoi se fait-il que les résultats de planification les plus avancés puissent être obtenus en utilisant uniquement le statut du moi ? Pour répondre à cette question, cet article présente un ensemble complet d’analyses couvrant les approches de conduite autonome de bout en bout en boucle ouverte existantes. Cet article identifie les principales lacunes des recherches existantes, notamment les aspects liés aux ensembles de données, aux mesures d'évaluation et aux mises en œuvre de modèles spécifiques. L'article énumère et détaille ces défauts dans le reste de cette section :
Déséquilibre des ensembles de données. NuScenes est un benchmark couramment utilisé pour les tâches d'évaluation en boucle ouverte [11–13, 16, 17, 43]. Cependant, l'analyse présentée dans cet article montre que 73,9 % des données nuScenes impliquent des scénarios de conduite en ligne droite, comme le reflète la distribution des trajectoires présentée dans la figure 2. Pour ces scénarios de conduite en ligne droite, le maintien de la vitesse, de la direction ou du taux de braquage actuel est suffisant la plupart du temps. Par conséquent, les informations sur le statut de l'ego peuvent être facilement utilisées comme raccourci pour s'adapter aux tâches de planification, ce qui conduit aux bonnes performances d'Ego-MLP sur nuScenes.
Les indicateurs d'évaluation existants ne sont pas exhaustifs. Les 26,1 % restants des données NuScenes impliquent des scénarios de conduite plus difficiles et peuvent constituer une meilleure référence pour la planification du comportement. Cependant, cet article estime que les indicateurs d'évaluation actuels largement utilisés, tels que la distance L2 entre la prédiction et la valeur réelle prévue et le taux de collision entre le véhicule autonome et les obstacles environnants, ne peuvent pas mesurer avec précision la qualité du comportement de planification du modèle. En visualisant de nombreuses trajectoires prédites générées par diverses méthodes, cet article note que certaines trajectoires à haut risque, telles que la conduite hors route, peuvent ne pas être sévèrement pénalisées dans les mesures existantes. Afin de répondre à ce problème, cet article introduit une nouvelle métrique d'évaluation pour calculer le taux d'interaction entre la trajectoire prédite et la limite de la route. La référence subit un changement substantiel lorsqu’elle se concentre sur les taux d’intersection avec les limites des routes. Selon cette nouvelle métrique d'évaluation, Ego-MLP a tendance à prédire les trajectoires qui s'écartent plus fréquemment de la route qu'UniAD.
Le biais lié au statut de l'ego contredit la logique motrice. Étant donné que le statut de l’ego peut conduire au surapprentissage, cet article a en outre observé un phénomène intéressant. Les résultats expérimentaux de cet article montrent que dans certains cas, la suppression complète des entrées visuelles des cadres de conduite autonome de bout en bout existants ne réduit pas de manière significative la qualité du comportement de planification. Cela contredit la logique de base de la conduite, puisque la perception est censée fournir des informations utiles pour la planification. Par exemple, bloquer toutes les entrées de caméra dans VAD [16] entraîne une défaillance complète du module de perception, mais seulement une dégradation minime de la planification s'il y a un statut d'ego. Cependant, modifier la vitesse de l'entrée peut affecter considérablement la trajectoire finale prévue.
En résumé, cet article spécule que les efforts récents dans le domaine de la conduite autonome de bout en bout et leurs résultats de pointe sur nuScenes sont probablement dus à une dépendance excessive à l'égard du statut de l'ego, associée à la domination de la conduite simple. scénarios. De plus, les mesures d’évaluation actuelles sont insuffisantes pour évaluer de manière exhaustive la qualité des trajectoires prédites par les modèles. Ces questions ouvertes et ces lacunes peuvent sous-estimer la complexité potentielle de la tâche de planification et créer une impression trompeuse selon laquelle le statut d’ego est tout ce dont vous avez besoin dans la conduite autonome de bout en bout en boucle ouverte.
L'interférence potentielle du statut du moi dans la recherche actuelle en boucle ouverte sur la conduite autonome de bout en bout soulève une autre question : cet effet peut-il être compensé en supprimant le statut du moi de l'ensemble du modèle ? Cependant, il convient de noter que même si l’influence du statut de l’ego est exclue, la fiabilité de la recherche sur la conduite autonome en boucle ouverte basée sur l’ensemble de données nuScenes reste discutable.
Image 1. (a) AD-MLP utilise à la fois le statut du moi et la vraie valeur des trajectoires passées comme entrée. La version reproduite dans cet article (Ego-MLP) a supprimé la trace passée. (b) Le processus de conduite autonome de bout en bout existant comprend des modules de perception, de prédiction et de planification. Le statut de l'ego peut être intégré dans le module de génération de vue à vol d'oiseau (BEV) ou dans le module de planification. (c) Cet article conçoit une base de référence simple pour la comparaison avec les méthodes existantes. Cette ligne de base simple n'utilise pas de modules de perception ou de prédiction, mais prédit directement la trajectoire finale en fonction des caractéristiques BEV.
Photo 2. (a) Carte thermique des trajectoires des véhicules dans l'ensemble de données nuScenes. (b) La plupart des scènes de l'ensemble de données nuScenes sont constituées de situations de conduite rectiligne.
Photo 3. Les méthodes actuelles [12, 13, 16] négligent de prendre en compte le changement d'angle de lacet du propre véhicule et maintiennent toujours un angle de lacet de 0 (représenté par le véhicule gris), ce qui entraîne une détection de collision faussement négative (a) et faussement positive (b). événements. Cet article estime l'angle de lacet du véhicule (représenté par le véhicule rouge) en estimant les changements dans la trajectoire du véhicule afin d'améliorer la précision de la détection des collisions.
Photo 4. Cet article montre les trajectoires prédites d'un modèle VAD qui intègre le statut du moi dans son planificateur dans divers scénarios de corruption d'image. Toutes les trajectoires d'une scène donnée (s'étalant sur 20 secondes) sont présentées dans un système de coordonnées global. Chaque marque triangulaire représente le point de trajectoire réel du véhicule autonome, et différentes couleurs représentent différents pas de temps. Il convient de noter que même si l’entrée est une image vierge, la trajectoire prédite par le modèle reste raisonnable. Cependant, la trajectoire dans la case rouge n’est pas optimale, comme le montre la figure 5. Bien que toutes les images en vue panoramique soient corrompues, pour faciliter la visualisation, seule l'image en vue frontale correspondant au pas de temps initial est affichée.
Photo 5. Dans les méthodes de conduite autonome en boucle ouverte, les trajectoires futures sont prédites à partir de la position de départ du véhicule autonome. Dans le paradigme de l’apprentissage par imitation, les trajectoires prédites devraient idéalement être étroitement alignées sur les trajectoires réelles de la vérité sur le terrain. De plus, les trajectoires prédites à des pas de temps consécutifs doivent rester cohérentes pour assurer la continuité et la fluidité de la stratégie de conduite. Par conséquent, la trajectoire prévue indiquée dans l’encadré rouge de la figure 4 s’écarte non seulement de la trajectoire réelle, mais présente également une divergence significative à différents horodatages.
Photo 6. Pour un modèle basé sur VAD qui intègre le statut du moi dans son planificateur, cet article introduit du bruit dans la vitesse du moi tout en gardant constante l'entrée visuelle. Il convient de noter que lorsque les données de vitesse du véhicule autonome sont perturbées, la trajectoire qui en résulte présente des changements significatifs. Régler la vitesse du véhicule à zéro entraîne des prédictions de mouvement stationnaire, tandis qu'une vitesse de 100 m/s entraîne des prédictions de trajectoires irréalistes. Cela indique que même si le module de perception continue de fournir des informations précises sur l'environnement, le processus de prise de décision du modèle repose trop sur le statut du moi.
Photo 7. BEVFormer combine les informations sur le statut de l'ego dans le processus d'initialisation de la requête BEV, ce qui est un détail non couvert par les méthodes de conduite autonome de bout en bout actuelles [13, 16, 43].
Photo 8. L'introduction des informations sur le statut du moi dans BEV-Planner++ permet au modèle de converger très rapidement.
Photo 9. Comparez les caractéristiques BEV de la référence de cet article avec les scénarios correspondants.
Dieses Papier bietet eine eingehende Analyse der inhärenten Mängel aktueller End-to-End-Methoden für das autonome Fahren mit offenem Regelkreis. Ziel dieser Arbeit ist es, Forschungsergebnisse einzubringen und die fortschreitende Entwicklung des durchgängigen autonomen Fahrens voranzutreiben.
Li Z, Yu Z, Lan S, et al. Ist der Ego-Status alles, was Sie für das durchgängige autonome Fahren mit offenem Regelkreis benötigen?[J]
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!