OmniDrive : un framework pour aligner de grands modèles avec des tâches de conduite 3D-IA-php.cn

Table des matières

Structure du réseau

Résultats expérimentaux

Maison

Périphériques technologiques

OmniDrive : un framework pour aligner de grands modèles avec des tâches de conduite 3D

PHPz

May 06, 2024 pm 03:16 PM

git 3d 自动驾驶

Commencez avec une nouvelle architecture MLLM 3D qui utilise des requêtes clairsemées pour soulever et compresser des représentations visuelles en 3D, qui sont ensuite introduites dans le LLM.

Titre : OmniDrive : Un cadre holistique d'agent LLM pour la conduite autonome avec raisonnement et planification de perception 3D

Affiliation de l'auteur : Institut de technologie de Pékin, NVIDIA, Université des sciences et technologies de Huazhong

Adresse open source : GitHub - NVlabs/OmniDrive

Multimodalité Le développement de grands modèles de langage (MLLM) a suscité un intérêt croissant pour la conduite autonome basée sur LLM, exploitant leurs puissantes capacités d'inférence. Tirer parti des puissantes capacités de raisonnement des MLLM pour améliorer le comportement de planification est un défi car ils nécessitent une connaissance complète de la situation en 3D au-delà du raisonnement en 2D. Pour relever ce défi, ce travail propose OmniDrive, un cadre complet pour un alignement robuste entre les modèles d'agent et les tâches de conduite 3D. Le cadre commence par une nouvelle architecture 3D+MLLM qui utilise des requêtes éparses pour extraire et compresser les représentations d'observation en 3D, qui sont ensuite introduites dans le LLM. Cette représentation basée sur des requêtes nous permet d'encoder conjointement des objets dynamiques et des éléments de carte statiques (par exemple, des routes de circulation), fournissant ainsi un modèle mondial concis pour l'alignement perception-action en 3D. Nous proposons en outre un nouveau benchmark qui comprend des tâches complètes de réponse visuelle aux questions (VQA), notamment la description de la scène, les règles de circulation, la mise à la terre 3D, le raisonnement contrefactuel, la prise de décision et la planification. Des recherches approfondies démontrent les capacités supérieures de raisonnement et de planification d'OmniDrive dans des scènes 3D complexes.

Structure du réseau

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

Résultats expérimentaux

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7316

Tutoriel Java

1625

Tutoriel CakePHP

1349

Tutoriel Laravel

1261

Tutoriel PHP

1208

Afficher plus

Related knowledge

Comment installer Deepseek Feb 19, 2025 pm 05:48 PM

Il existe de nombreuses façons d'installer Deepseek, notamment: Compiler à partir de Source (pour les développeurs expérimentés) en utilisant des packages précompilés (pour les utilisateurs de Windows) à l'aide de conteneurs Docker (pour le plus pratique, pas besoin de s'inquiéter de la compatibilité), quelle que soit la méthode que vous choisissez, veuillez lire Les documents officiels documentent soigneusement et les préparent pleinement à éviter des problèmes inutiles.

Vers la « boucle fermée » | PlanAgent : nouveau SOTA pour la planification en boucle fermée de la conduite autonome basée sur MLLM ! Jun 08, 2024 pm 09:30 PM

L'équipe d'apprentissage par renforcement profond de l'Institut d'automatisation de l'Académie chinoise des sciences, en collaboration avec Li Auto et d'autres, a proposé un nouveau cadre de planification en boucle fermée pour la conduite autonome basé sur le modèle multimodal à grand langage MLLM - PlanAgent. Cette méthode prend une vue d'ensemble de la scène et des invites de texte basées sur des graphiques comme entrée, et utilise la compréhension multimodale et les capacités de raisonnement de bon sens du grand modèle de langage multimodal pour effectuer un raisonnement hiérarchique depuis la compréhension de la scène jusqu'à la génération. d'instructions de mouvement horizontal et vertical, et générer en outre les instructions requises par le planificateur. La méthode est testée sur le benchmark nuPlan à grande échelle et exigeant, et les expériences montrent que PlanAgent atteint des performances de pointe (SOTA) dans les scénarios réguliers et à longue traîne. Par rapport aux méthodes conventionnelles de grand modèle de langage (LLM), PlanAgent

Résumé des FAQ pour une utilisation profonde Feb 19, 2025 pm 03:45 PM

Deepseekai Tool User Guide et FAQ Deepseek est un puissant outil intelligent AI. FAQ: La différence entre les différentes méthodes d'accès: il n'y a pas de différence de fonction entre la version Web, la version de l'application et les appels API, et l'application n'est qu'un wrapper pour la version Web. Le déploiement local utilise un modèle de distillation, qui est légèrement inférieur à la version complète de Deepseek-R1, mais le modèle 32 bits a théoriquement une capacité de version complète de 90%. Qu'est-ce qu'une taverne? SillyTavern est une interface frontale qui nécessite d'appeler le modèle AI via l'API ou le olllama. Qu'est-ce que la limite de rupture

Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome Jun 11, 2024 pm 05:29 PM

Écrit ci-dessus et compréhension personnelle de l'auteur : Récemment, avec le développement et les percées de la technologie d'apprentissage profond, les modèles de base à grande échelle (Foundation Models) ont obtenu des résultats significatifs dans les domaines du traitement du langage naturel et de la vision par ordinateur. L’application de modèles de base à la conduite autonome présente également de grandes perspectives de développement, susceptibles d’améliorer la compréhension et le raisonnement des scénarios. Grâce à une pré-formation sur un langage riche et des données visuelles, le modèle de base peut comprendre et interpréter divers éléments des scénarios de conduite autonome et effectuer un raisonnement, fournissant ainsi un langage et des commandes d'action pour piloter la prise de décision et la planification. Le modèle de base peut être constitué de données enrichies d'une compréhension du scénario de conduite afin de fournir les rares caractéristiques réalisables dans les distributions à longue traîne qui sont peu susceptibles d'être rencontrées lors d'une conduite de routine et d'une collecte de données.

Comment s'inscrire à LBank Exchange ? Aug 21, 2024 pm 02:20 PM

Pour vous inscrire à LBank, visitez le site officiel et cliquez sur « S'inscrire ». Entrez votre e-mail et votre mot de passe et vérifiez votre e-mail. Téléchargez l'application LBank iOS : recherchez « LBank » dans l'AppStore. Téléchargez et installez l'application "LBank-DigitalAssetExchange". Android : recherchez « LBank » dans le Google Play Store. Téléchargez et installez l'application "LBank-DigitalAssetExchange".

Quels sont les outils d'IA ? Nov 29, 2024 am 11:11 AM

Les outils d'IA incluent : Doubao, ChatGPT, Gemini, BlenderBot, etc.

Quelle marge est nécessaire pour les contrats à terme Huobi pour éviter la liquidation ? Jul 02, 2024 am 11:17 AM

La liquidation du contrat Huobi est une liquidation forcée causée par une marge insuffisante. Afin d'éviter la liquidation, le ratio de marge est recommandé : pas moins de 10 % pour les contrats en devises principales et pas moins de 20 % pour les contrats en devises non traditionnelles. Formule de calcul de la marge : marge requise pour la liquidation = valeur du contrat/(taux de perte 1 stop/cours d'ouverture). Un taux de marge élevé permet de réduire le risque de liquidation. Le ratio de levier du trading de contrats est élevé, et les rendements et les risques coexistent, les marges doivent donc être gérées avec soin.

Delphi Digital: Comment changer la nouvelle économie d'IA en analysant la nouvelle architecture Elizaos V2? Mar 04, 2025 pm 07:00 PM

ElizaOSV2: L'autonomisation de l'IA et de la direction de la nouvelle économie de WEB3. Cet article plongera dans les principales innovations d'ElizaOSV2 et comment elle façonne une économie future axée sur l'IA. Automatisation de l'IA: Aller exploiter indépendamment Elizaos était à l'origine un cadre d'IA axé sur l'automatisation Web3. La version V1 permet à l'IA d'interagir avec les contrats intelligents et les données de la blockchain, tandis que la version V2 atteint des améliorations de performances significatives. Au lieu d'exécuter simplement des instructions simples, l'IA peut gérer indépendamment les workflows, exploiter des affaires et développer des stratégies financières. Mise à niveau de l'architecture: amélioré un

See all articles