Récemment, avec l'essor de la technologie de l'IA générative, de nombreuses nouvelles forces de construction automobile explorent de nouvelles méthodes de modèles de langage visuel et de nouveaux modèles mondiaux de conduite intelligente de bout en bout semblent être devenues une direction de recherche commune. Le mois dernier, Li Auto a publié l'architecture technologique de conduite autonome de troisième génération de bout en bout + modèle de langage visuel VLM + modèle mondial. Cette architecture a été soumise à des milliers de personnes pour des tests internes. Elle personnifie un comportement de conduite intelligent, améliore l'efficacité du traitement des informations de l'IA et améliore la capacité à comprendre et à réagir à des conditions routières complexes. Li Xiang a déclaré un jour dans un partage public que face à des environnements de conduite rares qui sont difficiles à identifier et à traiter pour la plupart des algorithmes, le VLM (Visual Language Model) peut systématiquement améliorer les capacités de conduite autonome. Cette méthode peut théoriquement être une percée. .
La nouvelle génération de systèmes de conduite autonome a considérablement augmenté la limite supérieure des capacités - permettant à l'IA de faire face à de nombreuses situations difficiles à résoudre dans le passé, et a également abaissé le seuil - réduisant ainsi le besoin en matière de R&D technologique équipes, et devrait permettre à davantage de personnes de conduire dans un avenir proche. Bénéficiez d'une expérience considérablement améliorée à l'avenir.Depuis le second semestre de l'année dernière, Ideal a commencé à ajuster sa stratégie et à changer de trajectoire. En février de cette année, dans l'article DriveVLM soumis par l'Institut de recherche croisée de l'Université Tsinghua et Li Auto, les chercheurs ont appliqué le modèle de langage visuel (VLM) récemment apparu dans le domaine de l'IA générative et ont démontré des capacités extraordinaires en matière de compréhension et de raisonnement visuels. .
Dans l'industrie, il s'agit du premier travail à proposer un système de vitesse de conduite autonome. Sa méthode combine pleinement le pipeline de conduite autonome traditionnel et un pipeline de grands modèles avec une pensée logique, et est le premier à terminer le travail de test final sur un grand modèle. déploiement (basé sur la plateforme NVIDIA Orin).
Système DriveVLMDriveVLM se compose d'un processus de chaîne de réflexion (CoT) avec trois modules clés :
Ces modules correspondent aux composants de perception, de prédiction et de planification du processus traditionnel du système de conduite autonome. La différence réside dans leur capacité à gérer la perception des objets, la prédiction au niveau de l'intention et la planification au niveau des tâches, qui ont été extrêmement difficiles dans le passé. passé.
Vérification technique
La technologie de vérification idéale est efficace dans les scénarios à longue traîne :
Application pratique
Le modèle de bout en bout et le modèle VLM de Li Auto fonctionnent en temps réel :
Dans les villes complexes Dans le scénario, VLM joue un rôle dans les situations où la prise de décision est impossible et fournit des résultats de décision et des trajectoires au modèle de bout en bout.
Approche de bout en bout
L'approche de bout en bout est devenue un tournant technologique, marquant le début de l'utilisation réelle de l'IA.
Le modèle d'IA de nouvelle génération
Le modèle d'IA de nouvelle génération peut servir de générateur de questions :
Défi de puissance de calcul
VLM 等機型部署在車端面臨算力挑戰:
競爭展望
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!