


Le LLM est terminé ! OmniDrive : Intégration de la perception 3D et de la planification du raisonnement (la dernière version de NVIDIA)
Écrit devant et compréhension personnelle de l'auteur
Cet article est dédié à la résolution des principaux défis des grands modèles de langage multimodaux (MLLM) actuels dans les applications de conduite autonome, c'est-à-dire l'extension des MLLM de la compréhension 2D à l'espace 3D. question. Cette expansion est particulièrement importante car les véhicules autonomes (VA) doivent prendre des décisions précises concernant les environnements 3D. La compréhension spatiale 3D est essentielle pour les véhicules utilitaires car elle a un impact direct sur la capacité du véhicule à prendre des décisions éclairées, à prédire les états futurs et à interagir en toute sécurité avec l’environnement.
Les grands modèles de langage multimodaux actuels (tels que LLaVA-1.5) ne peuvent généralement gérer que des entrées d'images de résolution inférieure (par exemple) en raison des limitations de résolution de l'encodeur visuel et des limitations de longueur de séquence LLM. Cependant, les applications de conduite autonome nécessitent une entrée vidéo multi-vues haute résolution pour garantir que les véhicules peuvent percevoir l'environnement et prendre des décisions en toute sécurité sur de longues distances. De plus, de nombreuses architectures de modèles 2D existantes ont du mal à gérer efficacement ces entrées car elles nécessitent des ressources de calcul et de stockage étendues. Pour résoudre ces problèmes, les chercheurs travaillent au développement de nouvelles architectures de modèles et de nouvelles ressources de stockage.
Dans ce contexte, cet article propose une nouvelle architecture MLLM 3D, s'appuyant sur la conception de style Q-Former. L'architecture utilise un décodeur d'attention croisée pour compresser les informations visuelles haute résolution en requêtes clairsemées, ce qui facilite l'adaptation aux entrées haute résolution. Cette architecture présente des similitudes avec des familles de modèles de vue telles que DETR3D, PETR(v2), StreamPETR et Far3D, car ils exploitent tous des mécanismes de requête 3D clairsemés. En ajoutant un codage positionnel 3D à ces requêtes et en interagissant avec une entrée multi-vues, notre architecture permet une compréhension spatiale 3D et exploite ainsi mieux les connaissances pré-entraînées dans les images 2D.
En plus de l'innovation de l'architecture des modèles, cet article propose également un benchmark plus stimulant, OmniDrive-nuScenes. Le benchmark couvre une gamme de tâches complexes nécessitant une compréhension spatiale 3D et un raisonnement à longue portée, et introduit un benchmark de raisonnement contrefactuel pour évaluer les résultats en simulant des solutions et des trajectoires. Ce benchmark compense efficacement le problème de biais en faveur d’une trajectoire experte unique dans les évaluations ouvertes actuelles, évitant ainsi le surajustement des trajectoires expertes.
Cet article présente OmniDrive, un cadre complet de conduite autonome de bout en bout qui fournit un modèle de raisonnement et de planification 3D efficace basé sur l'agent LLM et construit une référence plus exigeante qui stimule les développements ultérieurs dans le domaine de la conduite autonome. Les contributions spécifiques sont les suivantes :
- Proposition d'une architecture Q-Former 3D adaptée à diverses tâches liées à la conduite, notamment la détection de cibles, la détection de voie, le positionnement visuel 3D, la prise de décision et la planification.
- Présentation du benchmark OmniDrive-nuScenes, le premier benchmark d'assurance qualité conçu pour résoudre les défis liés à la planification, couvrant des informations spatiales 3D précises.
- Obtenez les meilleures performances sur les tâches de planification.
Explication détaillée d'OmniDrive
Structure générale
L'agent OmniDrive proposé dans cet article combine les avantages de Q-Former et des modèles de perception 3D basés sur des requêtes pour obtenir efficacement des informations spatiales 3D dans plusieurs -afficher les caractéristiques de l'image, résoudre les tâches de perception 3D et de planification en conduite autonome. L'architecture globale est représentée sur la figure.
- Encodeur visuel : Tout d'abord, un encodeur visuel partagé est utilisé pour extraire les caractéristiques de l'image multi-vues.
- Encodage de position : les caractéristiques de l'image extraite sont entrées dans Q-Former3D avec l'encodage de position.
- Module Q-Former3D : Parmi eux, représente l'opération d'épissage. Par souci de concision, le codage positionnel est omis de la formule. Après cette étape, la collection de requêtes devient le interagi. Parmi eux, représente l'encodage de position 3D et est une fonctionnalité d'image multi-vue.
- Collection de fonctionnalités d'images multi-vues : Ensuite, ces requêtes collectent des informations à partir d'images multi-vues :
- Initialisation de la requête et auto-attention : Dans Q-Former3D, la requête de détection et la requête vectorielle sont initialisées, et Des opérations d'auto-attention sont effectuées pour échanger des informations entre eux :
- Traitement de sortie :
- Prédiction des tâches perceptuelles : Prédire la catégorie et les coordonnées des éléments de premier plan à l'aide de requêtes perceptuelles.
- Alignement des requêtes de transporteur et génération de texte : la requête de transporteur est alignée sur les dimensions du jeton LLM (telles que la dimension 4096 dans LLaMA) via un MLP monocouche et est en outre utilisée pour la génération de texte.
- Le rôle de la requête porteuse
Grâce à cette conception d'architecture, OmniDrive-Agent peut obtenir efficacement de riches informations spatiales 3D à partir d'images multi-vues et les combiner avec LLM pour la génération de texte, offrant ainsi une perception de l'espace 3D. et la conduite autonome offre de nouvelles solutions.
Modélisation multitâche et temporelle
La méthode de l'auteur bénéficie de l'apprentissage multitâche et de la modélisation temporelle. Dans l'apprentissage multi-tâches, l'auteur peut intégrer des modules Q-Former3D spécifiques pour chaque tâche de perception et adopter une stratégie d'initialisation unifiée (voir cref{Training Strategy}). Dans différentes tâches, les requêtes des opérateurs peuvent collecter des informations sur différents éléments du trafic. L'implémentation de l'auteur couvre des tâches telles que la construction de la ligne centrale et la détection d'objets 3D. Lors des phases d'entraînement et d'inférence, ces modules partagent le même encodage de position 3D. Notre méthode enrichit des tâches telles que la construction de la ligne médiane et la détection d'objets 3D. Lors des phases de formation et d'inférence, ces modules partagent le même encodage de position 3D. Notre méthode enrichit des tâches telles que la construction de la ligne médiane et la détection d'objets 3D. Lors des phases d'entraînement et d'inférence, ces modules partagent le même encodage de position 3D.
Concernant la modélisation temporelle, les auteurs stockent les requêtes perceptuelles avec les scores de classification top-k dans la banque mémoire et les propagent image par image. La requête propagée interagit avec la requête perceptuelle et la requête porteuse de l'image actuelle par le biais d'une attention croisée, étendant ainsi les capacités de traitement du modèle pour l'entrée vidéo.
Stratégie de formation
La stratégie de formation d'OmniDrive-Agent est divisée en deux étapes : la pré-formation 2D et la mise au point 3D. Dans la phase initiale, les auteurs ont d'abord pré-entraîné de grands modèles multimodaux (MLLM) sur des tâches d'image 2D pour initialiser les requêtes Q-Former et vectorielles. Après avoir supprimé la requête de détection, le modèle OmniDrive peut être considéré comme un modèle de langage visuel standard, capable de générer du texte à partir d'images. Par conséquent, l'auteur a utilisé la stratégie de formation et les données de LLaVA v1.5 pour pré-entraîner OmniDrive sur 558 000 paires d'images et de textes. Pendant le pré-entraînement, tous les paramètres restent figés sauf Q-Former. Par la suite, les MLLM ont été affinés à l’aide de l’ensemble de données de réglage des instructions de LLaVA v1.5. Pendant le réglage fin, l'encodeur d'image reste figé et d'autres paramètres peuvent être entraînés.
Dans la phase de mise au point 3D, l'objectif est d'améliorer les capacités de positionnement 3D du modèle tout en conservant autant que possible ses capacités de compréhension sémantique 2D. À cette fin, l’auteur a ajouté des modules d’encodage de position et de synchronisation 3D au Q-Former original. À ce stade, l'auteur utilise la technologie LoRA pour affiner l'encodeur visuel et le grand modèle de langage avec un faible taux d'apprentissage, et former Q-Former3D avec un taux d'apprentissage relativement élevé. Dans ces deux étapes, le calcul des pertes d'OmniDrive-Agent inclut uniquement la perte de génération de texte, sans tenir compte des pertes d'apprentissage et de correspondance contrastées dans BLIP-2.
OmniDrive-nuScenes
Pour comparer la conduite d'agents de grands modèles multimodaux, les auteurs proposent OmniDrive-nuScenes, un nouveau benchmark basé sur l'ensemble de données nuScenes contenant des réponses visuelles aux questions (QA) de haute qualité. Oui, couvrant tâches de perception, de raisonnement et de planification dans le domaine 3D.
Le point fort d'OmniDrive-nuScenes est son processus de génération d'assurance qualité entièrement automatisé, qui utilise GPT-4 pour générer des questions et des réponses. Semblable à LLaVA, notre pipeline fournit des annotations 3D comme informations contextuelles à GPT-4. Sur cette base, l'auteur utilise en outre les règles de circulation et la simulation de planification comme contribution supplémentaire pour aider GPT-4 à mieux comprendre l'environnement 3D. Le benchmark de l'auteur teste non seulement les capacités de perception et de raisonnement du modèle, mais remet également en question les capacités réelles de compréhension spatiale et de planification du modèle dans l'espace 3D à travers des problèmes à long terme impliquant l'attention, le raisonnement contrefactuel et la planification en boucle ouverte, car ces problèmes nécessitent une planification de conduite. dans les prochaines secondes est simulé pour arriver à la bonne réponse.
En plus du processus de génération de questions et réponses hors ligne, l'auteur propose également un processus de génération en ligne de questions de positionnement diverses. Ce processus peut être considéré comme une méthode implicite d’amélioration des données pour améliorer la compréhension spatiale 3D et les capacités de raisonnement du modèle.
Question-réponse hors ligne
Dans le processus de génération d'assurance qualité hors ligne, l'auteur utilise des informations contextuelles pour générer des paires d'assurance qualité sur nuScenes. Tout d’abord, l’auteur utilise GPT-4 pour générer une description de scène, divise la vue avant à trois perspectives et la vue arrière à trois perspectives en deux images indépendantes et les saisit dans GPT-4. Grâce à une saisie rapide, GPT-4 peut décrire des informations telles que la météo, l'heure, le type de scène, etc., et identifier la direction de chaque angle de vue. En même temps, il évite la description par angle de vue, mais décrit le contenu par rapport au. position de votre propre véhicule.
Ensuite, afin que GPT-4V puisse mieux comprendre la relation spatiale relative entre les éléments de trafic, l'auteur représente la relation entre les objets et les lignes de voie dans une structure de type arborescence de fichiers, et sur la base du cadre de délimitation 3D de l'objet, ses informations Convertir en description en langage naturel.
Ensuite, l'auteur a généré des trajectoires en simulant différentes intentions de conduite, notamment le maintien de la voie, le changement de voie de gauche et le changement de voie de droite, et a utilisé un algorithme de recherche en profondeur d'abord pour relier les lignes centrales des voies afin de générer tous les chemins de conduite possibles. De plus, l'auteur a regroupé les trajectoires des véhicules autonomes dans l'ensemble de données nuScenes, sélectionné des trajets de conduite représentatifs et les a utilisés dans le cadre de la trajectoire simulée.
Enfin, en combinant différentes informations contextuelles dans le processus de génération d'AQ hors ligne, les auteurs sont capables de générer plusieurs types de paires d'AQ, notamment la description de scène, la reconnaissance d'objets d'attention, le raisonnement contrefactuel et la planification de décision. GPT-4 peut identifier les objets menaçants sur la base de simulations et de trajectoires d'experts, et donner des suggestions de conduite raisonnables en raisonnant sur la sécurité du trajet.
Question-Réponse en ligne
Afin d'utiliser pleinement les annotations de perception 3D dans l'ensemble de données de conduite autonome, l'auteur a généré un grand nombre de tâches de positionnement en ligne pendant le processus de formation. Ces tâches sont conçues pour améliorer la compréhension spatiale 3D et les capacités de raisonnement du modèle, notamment :
- Localisation 2D vers 3D : étant donné une boîte englobante 2D sur une caméra spécifique, le modèle doit fournir les attributs 3D de l'objet correspondant, y compris la catégorie, l'emplacement, la taille, l'orientation et la vitesse.
- Distance 3D : sur la base de coordonnées 3D générées aléatoirement, identifiez les éléments de trafic à proximité de l'emplacement cible et fournissez leurs attributs 3D.
- Voie vers objets : sur la base d'un axe central de voie sélectionné au hasard, répertoriez tous les objets sur cette voie et leurs propriétés 3D. L'ensemble de données
Metrics
OmniDrive-nuScenes implique une description de scène, une planification en boucle ouverte et des tâches de raisonnement contrefactuel. Chaque tâche se concentre sur différents aspects, ce qui rend difficile son évaluation à l'aide d'une seule métrique. Par conséquent, les auteurs ont conçu différents critères d’évaluation pour différentes tâches.
Pour les tâches liées à la description de scènes (telles que la description de scènes et la sélection d'objets d'attention), l'auteur utilise des indicateurs d'évaluation linguistique couramment utilisés, notamment METEOR, ROUGE et CIDEr, pour évaluer la similarité des phrases. Dans la tâche de planification en boucle ouverte, les auteurs ont utilisé les taux de collision et les taux de franchissement des limites routières pour évaluer les performances du modèle. Pour la tâche de raisonnement contrefactuel, les auteurs utilisent GPT-3.5 pour extraire des mots-clés dans les prédictions et comparer ces mots-clés avec la vérité terrain afin de calculer la précision et le rappel pour différentes catégories d'accidents.
Résultats expérimentaux
Le tableau ci-dessus montre les résultats de la recherche sur l'ablation sur les tâches liées à la planification, y compris l'évaluation des performances du raisonnement contrefactuel et de la planification en boucle ouverte.
Le modèle complet, Q-Former3D, fonctionne bien à la fois sur le raisonnement contrefactuel et sur les tâches de planification en boucle ouverte. Dans la tâche de raisonnement contrefactuel, le modèle a démontré une précision et des taux de rappel élevés dans les catégories « violation du feu rouge » et « violation de la zone accessible », qui étaient respectivement de 57,6 %/58,3 % et 48,5 %/58,6 %. Dans le même temps, le modèle a atteint le taux de rappel le plus élevé (72,6 %) dans la catégorie « collision ». Dans la tâche de planification en boucle ouverte, Q-Former3D a obtenu de bons résultats en termes de taux de collision moyen et de taux d'intersection des limites de route, atteignant respectivement 3,79 % et 4,59 %.
Après avoir supprimé les données de formation en ligne (No Online), le taux de rappel de la catégorie « Violation du feu rouge » dans la tâche de raisonnement contrefactuel a augmenté (65,6 %), mais la performance globale a légèrement diminué. Le taux de précision et le taux de rappel des collisions et des infractions aux zones praticables sont légèrement inférieurs à ceux du modèle complet, tandis que le taux de collision moyen de la tâche de planification en boucle ouverte a augmenté à 4,93 % et le taux moyen de franchissement des limites routières a chuté à 4,02 %. , qui reflète l'importance des données de formation en ligne pour L'importance d'améliorer les performances globales de planification du modèle.
Dans l'expérience d'ablation d'architecture, la version Q-Former2D a atteint la plus haute précision (58,3 %) et le plus haut rappel (61,1 %) dans la catégorie « Violation de la lumière rouge », mais les performances dans les autres catégories n'étaient pas aussi bonnes que la version complète. modèle, en particulier " Les rappels pour les catégories " Collision " et " Violations des zones accessibles " ont diminué de manière significative. Dans la tâche de planification en boucle ouverte, le taux moyen de collisions et le taux d’intersection des limites routières sont supérieurs à ceux du modèle complet, soit 3,98 % et 6,03 % respectivement.
Le modèle utilisant l'architecture Dense BEV est plus performant sur toutes les catégories de tâches de raisonnement contrefactuel, mais le taux de rappel global est faible. Le taux moyen de collisions et le taux d’intersection des limites routières dans la tâche de planification en boucle ouverte ont atteint respectivement 4,43 % et 8,56 %.
Lorsque le module temporel est supprimé (No Temporal), les performances du modèle dans la tâche de raisonnement contrefactuel diminuent considérablement, en particulier le taux de collision moyen augmente à 6,07 % et le taux de franchissement des limites routières atteint 5,83 %.
En termes de supervision perceptuelle, après avoir supprimé la supervision de ligne de voie (No Lane), le taux de rappel du modèle dans la catégorie « collision » a chuté de manière significative, tandis que la performance d'autres catégories de tâches de raisonnement contrefactuel et de tâches de planification en boucle ouverte a été relativement stable. Après avoir complètement supprimé la supervision de la perception 3D des objets et des lignes de voie (No Object & Lane), les taux de précision et de rappel de chaque catégorie de la tâche de raisonnement contrefactuel ont diminué, en particulier le taux de rappel de la catégorie « collision » est tombé à 53,2 %. Le taux moyen de collisions et le taux d'intersection des limites de route dans la tâche de planification en boucle ouverte ont augmenté respectivement à 6,77 % et 8,43 %, ce qui était nettement supérieur à celui du modèle complet.
Comme le montrent les résultats expérimentaux ci-dessus, le modèle complet fonctionne bien dans les tâches de raisonnement contrefactuel et de planification en boucle ouverte. Les données de formation en ligne, les modules de temps et la supervision de la perception 3D des lignes de voie et des objets jouent un rôle important dans l'amélioration des performances du modèle. Le modèle complet peut utiliser efficacement les informations multimodales pour une planification et une prise de décision efficaces, et les résultats de l'expérience d'ablation vérifient davantage le rôle clé de ces composants dans les tâches de conduite autonome.
Gleichzeitig werfen wir einen Blick auf die Leistung von NuScenes-QA: Es demonstriert die Leistung von OmniDrive bei Open-Loop-Planungsaufgaben und vergleicht sie mit anderen bestehenden Methoden. Die Ergebnisse zeigen, dass OmniDrive++ (Vollversion) bei allen Indikatoren die beste Leistung erzielt, insbesondere beim durchschnittlichen Fehler der Open-Loop-Planung, der Kollisionsrate und der Kreuzungsrate von Straßengrenzen, was besser ist als bei anderen Methoden.
Leistung von OmniDrive++: Das OmniDrive++-Modell hat durchschnittliche L2-Fehler von 0,14, 0,29 und 0,55 Metern in der Vorhersagezeit von 1 Sekunde, 2 Sekunden bzw. 3 Sekunden, und der endgültige durchschnittliche Fehler beträgt nur 0,33 Meter. Darüber hinaus erreichten die durchschnittliche Kollisionsrate und die durchschnittliche Kreuzungsrate der Straßengrenzen dieses Modells ebenfalls 0,30 % bzw. 3,00 %, was viel niedriger ist als bei anderen Methoden. Insbesondere im Hinblick auf die Kollisionsrate erreichte OmniDrive++ innerhalb des Vorhersagezeitraums von 1 Sekunde und 2 Sekunden eine Kollisionsrate von Null und stellte damit seine hervorragenden Planungs- und Hindernisvermeidungsfähigkeiten voll unter Beweis.
Vergleich mit anderen Methoden: Im Vergleich zu anderen erweiterten Benchmark-Modellen wie UniAD, BEV-Planner++ und Ego-MLP übertrifft OmniDrive++ alle wichtigen Kennzahlen. Wenn UniAD High-Level-Befehle und Informationen zum Status des eigenen Fahrzeugs verwendet, beträgt sein durchschnittlicher L2-Fehler 0,46 Meter, während OmniDrive++ bei denselben Einstellungen einen noch geringeren Fehler von 0,33 Metern aufweist. Gleichzeitig sind die Kollisionsrate und die Kreuzungsrate von Straßengrenzen bei OmniDrive++ deutlich niedriger als bei UniAD, insbesondere ist die Kollisionsrate um fast die Hälfte reduziert.
Im Vergleich zu BEV-Planner++ wird der L2-Fehler von OmniDrive++ in allen Vorhersagezeiträumen deutlich reduziert, insbesondere im 3-Sekunden-Vorhersagezeitraum wird der Fehler von 0,57 Meter auf 0,55 Meter reduziert. Gleichzeitig ist OmniDrive++ auch hinsichtlich der Kollisionsrate und der Straßengrenzüberschreitungsrate besser als BEV-Planner++. Die Kollisionsrate sank von 0,34 % auf 0,30 % und die Straßengrenzüberschreitungsrate sank von 3,16 % auf 3,00 %.
Ablationsexperiment: Um den Einfluss von Schlüsselmodulen in der OmniDrive-Architektur auf die Leistung weiter zu bewerten, verglich der Autor auch die Leistung verschiedener Versionen des OmniDrive-Modells. OmniDrive (das keine Befehle auf hoher Ebene und keine Informationen zum Status des eigenen Fahrzeugs verwendet) ist dem Gesamtmodell in Bezug auf Vorhersagefehler, Kollisionsrate und Geschwindigkeit des Überquerens von Straßengrenzen deutlich unterlegen, insbesondere beim Erreichen des L2-Fehlers in der 3-Sekunden-Vorhersageperiode 2,84 Meter, mit einem Durchschnitt von 3,79 %.
Bei alleiniger Verwendung des OmniDrive-Modells (ohne übergeordnete Befehle und Informationen zum eigenen Fahrzeugstatus) haben sich der Vorhersagefehler, die Kollisionsrate und die Kreuzungsrate von Straßengrenzen verbessert, es besteht jedoch immer noch eine Lücke im Vergleich zum vollständigen Modell. Dies zeigt, dass die Integration von Befehlen auf hoher Ebene und Informationen zum Status des eigenen Fahrzeugs einen erheblichen Einfluss auf die Verbesserung der Gesamtplanungsleistung des Modells hat.
Insgesamt belegen die experimentellen Ergebnisse deutlich die hervorragende Leistung von OmniDrive++ bei Open-Loop-Planungsaufgaben. Durch die Integration multimodaler Informationen, hochrangiger Befehle und Informationen zum eigenen Fahrzeugstatus erreicht OmniDrive++ bei komplexen Planungsaufgaben eine genauere Pfadvorhersage und eine geringere Kollisionsrate sowie eine geringere Rate an Straßengrenzüberschneidungen, wodurch starke Informationen für die autonome Fahrplanung und Entscheidungsfindung bereitgestellt werden Unterstützung.
Diskussion
Der vom Autor vorgeschlagene OmniDrive-Agent und OmniDrive-nuScenes-Datensatz führt ein neues Paradigma im Bereich multimodaler großer Modelle ein, das in der Lage ist, Fahrprobleme in 3D-Umgebungen zu lösen und eine neue Plattform dafür bereitzustellen Solche Modelle Die Bewertung liefert einen umfassenden Benchmark. Allerdings hat jede neue Methode und jeder neue Datensatz ihre Vor- und Nachteile.
OmniDrive-Agent schlägt eine zweistufige Trainingsstrategie vor: 2D-Vortraining und 3D-Feinabstimmung. In der 2D-Vortrainingsphase wird eine bessere Ausrichtung zwischen Bildmerkmalen und großen Sprachmodellen durch das Vortraining von Q-Former- und Trägerabfragen mithilfe des Bild-Text-Paardatensatzes von LLaVA v1.5 erreicht. In der 3D-Feinabstimmungsphase werden 3D-Positionsinformationskodierungs- und Zeitmodule eingeführt, um die 3D-Positionierungsfunktionen des Modells zu verbessern. Durch die Nutzung von LoRA zur Feinabstimmung des visuellen Encoders und des Sprachmodells behält OmniDrive das Verständnis der 2D-Semantik bei und verbessert gleichzeitig seine Beherrschung der 3D-Lokalisierung. Diese abgestufte Trainingsstrategie schöpft das Potenzial des multimodalen Großmodells voll aus und verleiht ihm bessere Wahrnehmungs-, Argumentations- und Planungsfähigkeiten in 3D-Fahrszenarien. Andererseits dient OmniDrive-nuScenes als neuer Benchmark, der speziell für die Bewertung der Fähigkeit zum Fahren großer Modelle entwickelt wurde. Sein vollautomatischer QA-Generierungsprozess generiert über GPT-4 hochwertige Frage-Antwort-Paare, die verschiedene Aufgaben von der Wahrnehmung bis zur Planung abdecken. Darüber hinaus bietet die online generierte Positionierungsaufgabe auch eine implizite Datenverbesserung für das Modell und hilft ihm so, die 3D-Umgebung besser zu verstehen. Der Vorteil dieses Datensatzes besteht darin, dass er nicht nur die Wahrnehmungs- und Argumentationsfähigkeiten des Modells testet, sondern auch das räumliche Verständnis und die Planungsfähigkeiten des Modells anhand langfristiger Probleme bewertet. Dieser umfassende Benchmark bietet starke Unterstützung für die Entwicklung zukünftiger multimodaler Großmodelle.
Der OmniDrive-Agent und der OmniDrive-nuScenes-Datensatz weisen jedoch auch einige Mängel auf. Da der OmniDrive-Agent zunächst das gesamte Modell während der 3D-Feinabstimmungsphase optimieren muss, sind die Anforderungen an die Trainingsressourcen hoch, was die Trainingszeit und die Hardwarekosten erheblich erhöht. Darüber hinaus basiert die Datengenerierung von OmniDrive-nuScenes vollständig auf GPT-4. Dies stellt zwar die Qualität und Vielfalt der Fragen sicher, führt jedoch auch dazu, dass die generierten Fragen eher zu Modellen mit starken Fähigkeiten in natürlicher Sprache neigen, was das Modell beeinträchtigen kann hängt eher von Benchmark-Tests ab, die auf sprachlichen Merkmalen basieren, als auf tatsächlichen Fahrfähigkeiten. Obwohl OmniDrive-nuScenes einen umfassenden QA-Benchmark bietet, ist die Abdeckung von Fahrszenarien immer noch begrenzt. Die im Datensatz enthaltenen Verkehrsregeln und Planungssimulationen basieren nur auf dem nuScenes-Datensatz, was es für die generierten Probleme schwierig macht, verschiedene Fahrszenarien in der realen Welt vollständig darzustellen. Darüber hinaus sind die generierten Fragen aufgrund der hohen Automatisierung des Datengenerierungsprozesses unweigerlich von Datenverzerrungen und promptem Design betroffen.
Fazit
Der vom Autor vorgeschlagene OmniDrive-Agent und der OmniDrive-nuScenes-Datensatz bringen eine neue Perspektive und Bewertungsmaßstäbe für die multimodale Großmodellforschung in 3D-Fahrszenen. Die zweistufige Trainingsstrategie des OmniDrive-Agenten kombiniert erfolgreich 2D-Vortraining und 3D-Feinabstimmung, was zu Modellen führt, die sich durch Wahrnehmung, Argumentation und Planung auszeichnen. Als neuer QA-Benchmark bietet OmniDrive-nuScenes umfassende Indikatoren zur Bewertung großer Fahrmodelle. Es bedarf jedoch noch weiterer Forschung, um den Trainingsressourcenbedarf des Modells zu optimieren, den Datensatzgenerierungsprozess zu verbessern und sicherzustellen, dass die generierten Fragen die reale Fahrumgebung genauer darstellen. Insgesamt sind die Methode und der Datensatz des Autors von großer Bedeutung für die Weiterentwicklung der multimodalen Großmodellforschung im Bereich Fahren und legen eine solide Grundlage für zukünftige Arbeiten.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles
