Présentation de NVLM 1.0: l'approche de NVIDIA sur les LLM multimodales-IA-php.cn

Maison

Périphériques technologiques

Présentation de NVLM 1.0: l'approche de NVIDIA sur les LLM multimodales

Joseph Gordon-Levitt

Apr 09, 2025 am 09:22 AM

NVIDIA's révolutionnaire NVLM 1.0: Un LLM multimodal open source

Cet article plonge sur NVLM 1.0 récemment dévoilé de NVIDIA, une famille de modèles de langue multimodale en open source open (LLMS). Ces modèles atteignent des performances de pointe sur les tâches de langue visuelle, en concurrence avec les meilleurs modèles propriétaires et à accès ouvert comme LLAMA 3-V 405B et Intervl 2. Une caractéristique notable est la performance améliorée de texte uniquement de NVLM 1.0 après une formation multimodale, une avancée significative par rapport à son dorsale LLM. Les poids et le code du modèle sont accessibles au public, favorisant les contributions communautaires.

NVIDIA a méticuleusement comparé les modèles basés sur la conservation (par exemple, le Flamingo) et les LLM multimodaux uniquement du décodeur (par exemple, llava). Tirant parti des forces et des faiblesses de chacun, ils ont développé une architecture unique qui améliore à la fois l'efficacité de la formation et les capacités de raisonnement multimodal.

Présentation de NVLM 1.0: l'approche de NVIDIA sur les LLM multimodales

Caractéristiques clés de NVLM 1.0:

Famille LLM multimodale open source excellant dans les tâches de vision et de texte uniquement.
Trois variations architecturales: le décodeur uniquement (NVLM-D), l'attention croisée (NVLM-X) et un hybride (NVLM-H).
Performances supérieures dans l'OCR, raisonnement multimodal et traitement d'image à haute résolution.
Maintient de fortes performances en texte uniquement, abordant une faiblesse commune dans les modèles multimodaux.
Met l'accent sur des données de haute qualité et diverses pour le réglage fin de pré-entraînement et supervisé.
Disponibilité open source de poids et de code du modèle.

Innovations architecturales et méthodologie de formation:

Pour surmonter les limites des LLM multimodales existantes (comparaisons d'architecture incohérentes, manipulation d'images à haute résolution et dégradation des performances en texte uniquement), NVLM 1.0 introduit trois architectures: NVLM-D (décodeur uniquement), NVLM-X (Aménagement croisé) et NVLM-H (hybride). Tous sont formés sur le même ensemble de données organisé, offrant une flexibilité et des performances. Une nouvelle conception de tuiles de carreaux améliore le traitement d'image à haute résolution. Le processus de formation implique la pré-formation (gel de l'encodeur de vision et LLM) suivi d'un réglage fin supervisé (SFT) des modules LLM et d'alignement de modalité. Cette approche, associée à un accent sur la qualité des données par rapport à la quantité pure, entraîne des performances robustes sur diverses tâches.

Présentation de NVLM 1.0: l'approche de NVIDIA sur les LLM multimodales

Performance et repères:

NVLM 1.0 démontre des performances compétitives ou supérieures par rapport aux principaux modèles sur plusieurs repères. NVLM-D excelle dans les tâches OCR, NVLM-H brille dans le raisonnement multimodal et NVLM-X offre des avantages de vitesse avec des images à haute résolution. Surtout, tous les modèles maintiennent ou améliorent les performances en texte seulement après une formation multimodale.

Présentation de NVLM 1.0: l'approche de NVIDIA sur les LLM multimodales

Accéder et utiliser NVLM-D 72B:

Les extraits de code fournis montrent comment accéder et utiliser le modèle NVLM-D 72B à l'aide de la face de câlins et de la bibliothèque Transformers, y compris le reusage du modèle pour une utilisation efficace multi-GPU, le prétraitement d'image, le carrelage d'images dynamiques et l'exemple de code pour les conversations basées sur le texte et l'image. Notez qu'il s'agit d'un grand modèle (150 Go).

Conclusion:

NVLM 1.0 représente un saut significatif en avant dans les LLM multimodales open source. Sa performance supérieure, ses innovations architecturales et son engagement à l'accessibilité open source en font une ressource précieuse pour les chercheurs et les développeurs. L'accent mis sur la qualité des données et la préservation des capacités de texte uniquement abordent les limitations clés des modèles multimodaux précédents. La documentation détaillée et le code facilement disponible facilitent les recherches et le développement supplémentaires au sein de la communauté.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7549

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable! Mar 20, 2025 pm 03:34 PM

Le codage des ambiances est de remodeler le monde du développement de logiciels en nous permettant de créer des applications en utilisant le langage naturel au lieu de lignes de code sans fin. Inspirée par des visionnaires comme Andrej Karpathy, cette approche innovante permet de dev

Top 5 Genai Lunets de février 2025: GPT-4.5, Grok-3 et plus! Mar 22, 2025 am 10:58 AM

Février 2025 a été un autre mois qui change la donne pour une IA générative, nous apportant certaines des mises à niveau des modèles les plus attendues et de nouvelles fonctionnalités révolutionnaires. De Xai's Grok 3 et Anthropic's Claude 3.7 Sonnet, à Openai's G

Comment utiliser YOLO V12 pour la détection d'objets? Mar 22, 2025 am 11:07 AM

Yolo (vous ne regardez qu'une seule fois) a été un cadre de détection d'objets en temps réel de premier plan, chaque itération améliorant les versions précédentes. La dernière version Yolo V12 introduit des progrès qui améliorent considérablement la précision

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Chatgpt 4 o est-il disponible? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Quelle IA est la meilleure que Chatgpt? Mar 18, 2025 pm 06:05 PM

L'article traite des modèles d'IA dépassant Chatgpt, comme Lamda, Llama et Grok, mettant en évidence leurs avantages en matière de précision, de compréhension et d'impact de l'industrie. (159 caractères)

Comment utiliser Mistral OCR pour votre prochain modèle de chiffon Mar 21, 2025 am 11:11 AM

Mistral OCR: révolutionner la génération de la récupération avec une compréhension du document multimodal Les systèmes de génération (RAG) (RAG) de la récupération ont considérablement avancé les capacités d'IA, permettant à de vastes magasins de données pour une responsabilité plus éclairée

Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

See all articles