


OmniDrive : un framework pour aligner de grands modèles avec des tâches de conduite 3D
Commencez avec une nouvelle architecture MLLM 3D qui utilise des requêtes clairsemées pour soulever et compresser des représentations visuelles en 3D, qui sont ensuite introduites dans le LLM.
Titre : OmniDrive : Un cadre holistique d'agent LLM pour la conduite autonome avec raisonnement et planification de perception 3D
Affiliation de l'auteur : Institut de technologie de Pékin, NVIDIA, Université des sciences et technologies de Huazhong
Adresse open source : GitHub - NVlabs/OmniDrive
Multimodalité Le développement de grands modèles de langage (MLLM) a suscité un intérêt croissant pour la conduite autonome basée sur LLM, exploitant leurs puissantes capacités d'inférence. Tirer parti des puissantes capacités de raisonnement des MLLM pour améliorer le comportement de planification est un défi car ils nécessitent une connaissance complète de la situation en 3D au-delà du raisonnement en 2D. Pour relever ce défi, ce travail propose OmniDrive, un cadre complet pour un alignement robuste entre les modèles d'agent et les tâches de conduite 3D. Le cadre commence par une nouvelle architecture 3D+MLLM qui utilise des requêtes éparses pour extraire et compresser les représentations d'observation en 3D, qui sont ensuite introduites dans le LLM. Cette représentation basée sur des requêtes nous permet d'encoder conjointement des objets dynamiques et des éléments de carte statiques (par exemple, des routes de circulation), fournissant ainsi un modèle mondial concis pour l'alignement perception-action en 3D. Nous proposons en outre un nouveau benchmark qui comprend des tâches complètes de réponse visuelle aux questions (VQA), notamment la description de la scène, les règles de circulation, la mise à la terre 3D, le raisonnement contrefactuel, la prise de décision et la planification. Des recherches approfondies démontrent les capacités supérieures de raisonnement et de planification d'OmniDrive dans des scènes 3D complexes.
Structure du réseau
Résultats expérimentaux
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Il existe de nombreuses façons d'installer Deepseek, notamment: Compiler à partir de Source (pour les développeurs expérimentés) en utilisant des packages précompilés (pour les utilisateurs de Windows) à l'aide de conteneurs Docker (pour le plus pratique, pas besoin de s'inquiéter de la compatibilité), quelle que soit la méthode que vous choisissez, veuillez lire Les documents officiels documentent soigneusement et les préparent pleinement à éviter des problèmes inutiles.

L'équipe d'apprentissage par renforcement profond de l'Institut d'automatisation de l'Académie chinoise des sciences, en collaboration avec Li Auto et d'autres, a proposé un nouveau cadre de planification en boucle fermée pour la conduite autonome basé sur le modèle multimodal à grand langage MLLM - PlanAgent. Cette méthode prend une vue d'ensemble de la scène et des invites de texte basées sur des graphiques comme entrée, et utilise la compréhension multimodale et les capacités de raisonnement de bon sens du grand modèle de langage multimodal pour effectuer un raisonnement hiérarchique depuis la compréhension de la scène jusqu'à la génération. d'instructions de mouvement horizontal et vertical, et générer en outre les instructions requises par le planificateur. La méthode est testée sur le benchmark nuPlan à grande échelle et exigeant, et les expériences montrent que PlanAgent atteint des performances de pointe (SOTA) dans les scénarios réguliers et à longue traîne. Par rapport aux méthodes conventionnelles de grand modèle de langage (LLM), PlanAgent

Deepseekai Tool User Guide et FAQ Deepseek est un puissant outil intelligent AI. FAQ: La différence entre les différentes méthodes d'accès: il n'y a pas de différence de fonction entre la version Web, la version de l'application et les appels API, et l'application n'est qu'un wrapper pour la version Web. Le déploiement local utilise un modèle de distillation, qui est légèrement inférieur à la version complète de Deepseek-R1, mais le modèle 32 bits a théoriquement une capacité de version complète de 90%. Qu'est-ce qu'une taverne? SillyTavern est une interface frontale qui nécessite d'appeler le modèle AI via l'API ou le olllama. Qu'est-ce que la limite de rupture

Écrit ci-dessus et compréhension personnelle de l'auteur : Récemment, avec le développement et les percées de la technologie d'apprentissage profond, les modèles de base à grande échelle (Foundation Models) ont obtenu des résultats significatifs dans les domaines du traitement du langage naturel et de la vision par ordinateur. L’application de modèles de base à la conduite autonome présente également de grandes perspectives de développement, susceptibles d’améliorer la compréhension et le raisonnement des scénarios. Grâce à une pré-formation sur un langage riche et des données visuelles, le modèle de base peut comprendre et interpréter divers éléments des scénarios de conduite autonome et effectuer un raisonnement, fournissant ainsi un langage et des commandes d'action pour piloter la prise de décision et la planification. Le modèle de base peut être constitué de données enrichies d'une compréhension du scénario de conduite afin de fournir les rares caractéristiques réalisables dans les distributions à longue traîne qui sont peu susceptibles d'être rencontrées lors d'une conduite de routine et d'une collecte de données.

Pour vous inscrire à LBank, visitez le site officiel et cliquez sur « S'inscrire ». Entrez votre e-mail et votre mot de passe et vérifiez votre e-mail. Téléchargez l'application LBank iOS : recherchez « LBank » dans l'AppStore. Téléchargez et installez l'application "LBank-DigitalAssetExchange". Android : recherchez « LBank » dans le Google Play Store. Téléchargez et installez l'application "LBank-DigitalAssetExchange".

Les outils d'IA incluent : Doubao, ChatGPT, Gemini, BlenderBot, etc.

La liquidation du contrat Huobi est une liquidation forcée causée par une marge insuffisante. Afin d'éviter la liquidation, le ratio de marge est recommandé : pas moins de 10 % pour les contrats en devises principales et pas moins de 20 % pour les contrats en devises non traditionnelles. Formule de calcul de la marge : marge requise pour la liquidation = valeur du contrat/(taux de perte 1 stop/cours d'ouverture). Un taux de marge élevé permet de réduire le risque de liquidation. Le ratio de levier du trading de contrats est élevé, et les rendements et les risques coexistent, les marges doivent donc être gérées avec soin.

ElizaOSV2: L'autonomisation de l'IA et de la direction de la nouvelle économie de WEB3. Cet article plongera dans les principales innovations d'ElizaOSV2 et comment elle façonne une économie future axée sur l'IA. Automatisation de l'IA: Aller exploiter indépendamment Elizaos était à l'origine un cadre d'IA axé sur l'automatisation Web3. La version V1 permet à l'IA d'interagir avec les contrats intelligents et les données de la blockchain, tandis que la version V2 atteint des améliorations de performances significatives. Au lieu d'exécuter simplement des instructions simples, l'IA peut gérer indépendamment les workflows, exploiter des affaires et développer des stratégies financières. Mise à niveau de l'architecture: amélioré un
