Table des matières
La première prédiction et planification multi-vues Modèle mondial de conduite autonome
Comment construire un modèle de génération de vidéo multi-vues
Génération et contrôlabilité vidéo de haute qualité
Conclusion
Maison Périphériques technologiques IA Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Dec 04, 2023 am 08:37 AM
自动驾驶 视觉

Récemment, le concept de modèle mondial a déclenché une vague d'enthousiasme, mais le domaine de la conduite autonome ne peut pas regarder le « feu » de loin. Une équipe de l'Institut d'automatisation de l'Académie chinoise des sciences a proposé pour la première fois un nouveau modèle mondial à vues multiples appelé Drive-WM, visant à améliorer la sécurité de la planification de bout en bout de la conduite autonome.

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Site Web : https://drive-wm.github.io

URL du papier : https://arxiv.org/abs/2311.17918

La première prédiction et planification multi-vues Modèle mondial de conduite autonome

Lors du séminaire de conduite autonome CVPR2023, les deux grands géants de la technologie Tesla et Wayve ont présenté leur technologie noire, et un nouveau concept appelé « Modèle mondial génératif » est devenu populaire dans le domaine de la conduite autonome. Wayve a même publié le modèle d'IA générative GAIA-1, démontrant ses étonnantes capacités de génération de scènes vidéo. Récemment, des chercheurs de l'Institut d'automatisation de l'Académie chinoise des sciences ont également proposé un nouveau modèle mondial de conduite autonome - Drive-WM, qui réalise pour la première fois un modèle mondial prédictif multi-vues et s'intègre parfaitement au courant dominant actuel. Planificateur de conduite autonome de bout en bout.

Drive-WM profite des puissantes capacités de génération du modèle Diffusion pour générer des scènes vidéo réalistes.

Imaginez que vous conduisez et que votre système embarqué prédit les développements futurs en fonction de vos habitudes de conduite et des conditions routières, et génère un retour visuel correspondant pour guider la sélection des itinéraires de trajectoire. Cette capacité à prévoir l’avenir combinée à un planificateur améliorera grandement la sécurité de la conduite autonome !

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Prévision et planification basées sur des modèles mondiaux multi-vues. La combinaison du modèle mondial et de la conduite autonome de bout en bout améliore la sécurité de conduite

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arriveLe modèle Drive-WM amène le monde à La combinaison de modèles et de planification de bout en bout ouvre un nouveau chapitre pour le développement de -fin de la conduite autonome. À chaque pas de temps, le planificateur peut utiliser le modèle mondial pour prédire des scénarios futurs possibles, puis utiliser la fonction de récompense d'image pour les évaluer pleinement.


L'arbre de planification de trajectoire de bout en bout basé sur le modèle mondial peut être réécritFaites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

En utilisant la meilleure méthode d'estimation et la technologie d'arbre de planification étendue, une planification plus efficace et plus sûre peut être réalisée


Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Drive-WM explore deux applications du modèle mondial dans la planification de bout en bout grâce à des recherches innovantes

1 Démontre la robustesse du modèle mondial face aux scénarios OOD. Grâce à des expériences comparatives, l'auteur a découvert que les performances du planificateur de bout en bout actuel ne sont pas idéales face à des situations OOD.

L'auteur donne l'image suivante. Lorsqu'un léger décalage latéral est perturbé par rapport à la position initiale, le planificateur de bout en bout actuel a du mal à produire un itinéraire planifié raisonnable.

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Le planificateur de bout en bout a du mal à générer des itinéraires de planification raisonnables face à des situations OOD.

La puissante capacité de génération de Drive-WM fournit de nouvelles idées pour résoudre les problèmes OOD. L'auteur utilise les vidéos générées pour affiner le planificateur et apprendre des données OOD, afin que le planificateur puisse avoir de meilleures performances face à de tels scénarios

2 Cela montre que l'introduction de l'évaluation des scénarios futurs est très importante pour. de bout en bout L'effet d'amélioration de la planification

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Comment construire un modèle de génération de vidéo multi-vues

La cohérence spatio-temporelle de la génération de vidéo multi-vues a toujours été un problème difficile. Drive-WM étend les capacités de génération vidéo en introduisant un codage de couche séquentiel et réalise une génération vidéo multi-vues grâce à la modélisation de la décomposition des vues. Cette méthode de génération de décomposition des vues peut grandement améliorer la cohérence entre les vues

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Conception globale du modèle Drive-WM

Génération et contrôlabilité vidéo de haute qualité

Drive -WM permet une haute qualité génération vidéo multi-vues avec une excellente contrôlabilité. Il offre une variété d'options de contrôle pour contrôler la génération de vidéos multi-vues via le texte, la disposition de la scène et les informations de mouvement. Il offre également de nouvelles possibilités pour les futurs simulateurs neuronaux

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

, telles que l'utilisation de texte pour modifier la météo et. éclairage :

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive


Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Par exemple, génération de piétons et montage au premier plan :

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Utilisez les méthodes de contrôle de vitesse et de direction :

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arriveFaites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Générez des événements rares, comme faire demi-tour à une intersection ou rouler dans l'herbe latérale

Faites un voyage vers le futur, le premier modèle mondial de conduite autonome de prévision et de planification multi-vues arrive

Conclusion

Drive-WM démontre non seulement ses puissantes capacités de génération de vidéos multi-vues, mais révèle également le grand potentiel de la combinaison du modèle mondial avec le modèle de conduite de bout en bout. Nous pensons qu’à l’avenir, les modèles mondiaux pourront contribuer à créer un système de conduite autonome de bout en bout plus sûr, plus stable et plus fiable.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Pourquoi le Gaussian Splatting est-il si populaire dans la conduite autonome que le NeRF commence à être abandonné ? Pourquoi le Gaussian Splatting est-il si populaire dans la conduite autonome que le NeRF commence à être abandonné ? Jan 17, 2024 pm 02:57 PM

Écrit ci-dessus et compréhension personnelle de l'auteur Le Gaussiansplatting tridimensionnel (3DGS) est une technologie transformatrice qui a émergé dans les domaines des champs de rayonnement explicites et de l'infographie ces dernières années. Cette méthode innovante se caractérise par l’utilisation de millions de gaussiennes 3D, ce qui est très différent de la méthode du champ de rayonnement neuronal (NeRF), qui utilise principalement un modèle implicite basé sur les coordonnées pour mapper les coordonnées spatiales aux valeurs des pixels. Avec sa représentation explicite de scènes et ses algorithmes de rendu différenciables, 3DGS garantit non seulement des capacités de rendu en temps réel, mais introduit également un niveau de contrôle et d'édition de scène sans précédent. Cela positionne 3DGS comme un révolutionnaire potentiel pour la reconstruction et la représentation 3D de nouvelle génération. À cette fin, nous fournissons pour la première fois un aperçu systématique des derniers développements et préoccupations dans le domaine du 3DGS.

Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Jun 02, 2024 pm 02:44 PM

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Choisir une caméra ou un lidar ? Une étude récente sur la détection robuste d'objets 3D Choisir une caméra ou un lidar ? Une étude récente sur la détection robuste d'objets 3D Jan 26, 2024 am 11:18 AM

0. Écrit à l'avant&& Compréhension personnelle que les systèmes de conduite autonome s'appuient sur des technologies avancées de perception, de prise de décision et de contrôle, en utilisant divers capteurs (tels que caméras, lidar, radar, etc.) pour percevoir l'environnement et en utilisant des algorithmes et des modèles pour une analyse et une prise de décision en temps réel. Cela permet aux véhicules de reconnaître les panneaux de signalisation, de détecter et de suivre d'autres véhicules, de prédire le comportement des piétons, etc., permettant ainsi de fonctionner en toute sécurité et de s'adapter à des environnements de circulation complexes. Cette technologie attire actuellement une grande attention et est considérée comme un domaine de développement important pour l'avenir des transports. . un. Mais ce qui rend la conduite autonome difficile, c'est de trouver comment faire comprendre à la voiture ce qui se passe autour d'elle. Cela nécessite que l'algorithme de détection d'objets tridimensionnels du système de conduite autonome puisse percevoir et décrire avec précision les objets dans l'environnement, y compris leur emplacement,

Au-delà d'ORB-SLAM3 ! SL-SLAM : les scènes de faible luminosité, de gigue importante et de texture faible sont toutes gérées Au-delà d'ORB-SLAM3 ! SL-SLAM : les scènes de faible luminosité, de gigue importante et de texture faible sont toutes gérées May 30, 2024 am 09:35 AM

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Avez-vous vraiment maîtrisé la conversion des systèmes de coordonnées ? Des enjeux multi-capteurs indispensables à la conduite autonome Oct 12, 2023 am 11:21 AM

Le premier article pilote et clé présente principalement plusieurs systèmes de coordonnées couramment utilisés dans la technologie de conduite autonome, et comment compléter la corrélation et la conversion entre eux, et enfin construire un modèle d'environnement unifié. L'objectif ici est de comprendre la conversion du véhicule en corps rigide de caméra (paramètres externes), la conversion de caméra en image (paramètres internes) et la conversion d'image en unité de pixel. La conversion de 3D en 2D aura une distorsion, une traduction, etc. Points clés : Le système de coordonnées du véhicule et le système de coordonnées du corps de la caméra doivent être réécrits : le système de coordonnées planes et le système de coordonnées des pixels Difficulté : la distorsion de l'image doit être prise en compte. La dé-distorsion et l'ajout de distorsion sont compensés sur le plan de l'image. 2. Introduction Il existe quatre systèmes de vision au total : système de coordonnées du plan de pixels (u, v), système de coordonnées d'image (x, y), système de coordonnées de caméra () et système de coordonnées mondiales (). Il existe une relation entre chaque système de coordonnées,

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome SIMPL : un benchmark de prédiction de mouvement multi-agents simple et efficace pour la conduite autonome Feb 20, 2024 am 11:48 AM

Titre original : SIMPL : ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving Lien article : https://arxiv.org/pdf/2402.02519.pdf Lien code : https://github.com/HKUST-Aerial-Robotics/SIMPL Affiliation de l'auteur : Université des sciences de Hong Kong et technologie Idée DJI Paper : cet article propose une base de référence de prédiction de mouvement (SIMPL) simple et efficace pour les véhicules autonomes. Par rapport au cent agent traditionnel

NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! NuScenes dernier SOTA SparseAD : les requêtes clairsemées contribuent à une conduite autonome efficace de bout en bout ! Apr 17, 2024 pm 06:22 PM

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

See all articles