


Présentation de NVLM 1.0: l'approche de NVIDIA sur les LLM multimodales
NVIDIA's révolutionnaire NVLM 1.0: Un LLM multimodal open source
Cet article plonge sur NVLM 1.0 récemment dévoilé de NVIDIA, une famille de modèles de langue multimodale en open source open (LLMS). Ces modèles atteignent des performances de pointe sur les tâches de langue visuelle, en concurrence avec les meilleurs modèles propriétaires et à accès ouvert comme LLAMA 3-V 405B et Intervl 2. Une caractéristique notable est la performance améliorée de texte uniquement de NVLM 1.0 après une formation multimodale, une avancée significative par rapport à son dorsale LLM. Les poids et le code du modèle sont accessibles au public, favorisant les contributions communautaires.
NVIDIA a méticuleusement comparé les modèles basés sur la conservation (par exemple, le Flamingo) et les LLM multimodaux uniquement du décodeur (par exemple, llava). Tirant parti des forces et des faiblesses de chacun, ils ont développé une architecture unique qui améliore à la fois l'efficacité de la formation et les capacités de raisonnement multimodal.
Caractéristiques clés de NVLM 1.0:
- Famille LLM multimodale open source excellant dans les tâches de vision et de texte uniquement.
- Trois variations architecturales: le décodeur uniquement (NVLM-D), l'attention croisée (NVLM-X) et un hybride (NVLM-H).
- Performances supérieures dans l'OCR, raisonnement multimodal et traitement d'image à haute résolution.
- Maintient de fortes performances en texte uniquement, abordant une faiblesse commune dans les modèles multimodaux.
- Met l'accent sur des données de haute qualité et diverses pour le réglage fin de pré-entraînement et supervisé.
- Disponibilité open source de poids et de code du modèle.
Innovations architecturales et méthodologie de formation:
Pour surmonter les limites des LLM multimodales existantes (comparaisons d'architecture incohérentes, manipulation d'images à haute résolution et dégradation des performances en texte uniquement), NVLM 1.0 introduit trois architectures: NVLM-D (décodeur uniquement), NVLM-X (Aménagement croisé) et NVLM-H (hybride). Tous sont formés sur le même ensemble de données organisé, offrant une flexibilité et des performances. Une nouvelle conception de tuiles de carreaux améliore le traitement d'image à haute résolution. Le processus de formation implique la pré-formation (gel de l'encodeur de vision et LLM) suivi d'un réglage fin supervisé (SFT) des modules LLM et d'alignement de modalité. Cette approche, associée à un accent sur la qualité des données par rapport à la quantité pure, entraîne des performances robustes sur diverses tâches.
Performance et repères:
NVLM 1.0 démontre des performances compétitives ou supérieures par rapport aux principaux modèles sur plusieurs repères. NVLM-D excelle dans les tâches OCR, NVLM-H brille dans le raisonnement multimodal et NVLM-X offre des avantages de vitesse avec des images à haute résolution. Surtout, tous les modèles maintiennent ou améliorent les performances en texte seulement après une formation multimodale.
Accéder et utiliser NVLM-D 72B:
Les extraits de code fournis montrent comment accéder et utiliser le modèle NVLM-D 72B à l'aide de la face de câlins et de la bibliothèque Transformers, y compris le reusage du modèle pour une utilisation efficace multi-GPU, le prétraitement d'image, le carrelage d'images dynamiques et l'exemple de code pour les conversations basées sur le texte et l'image. Notez qu'il s'agit d'un grand modèle (150 Go).
Conclusion:
NVLM 1.0 représente un saut significatif en avant dans les LLM multimodales open source. Sa performance supérieure, ses innovations architecturales et son engagement à l'accessibilité open source en font une ressource précieuse pour les chercheurs et les développeurs. L'accent mis sur la qualité des données et la préservation des capacités de texte uniquement abordent les limitations clés des modèles multimodaux précédents. La documentation détaillée et le code facilement disponible facilitent les recherches et le développement supplémentaires au sein de la communauté.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le codage des ambiances est de remodeler le monde du développement de logiciels en nous permettant de créer des applications en utilisant le langage naturel au lieu de lignes de code sans fin. Inspirée par des visionnaires comme Andrej Karpathy, cette approche innovante permet de dev

Février 2025 a été un autre mois qui change la donne pour une IA générative, nous apportant certaines des mises à niveau des modèles les plus attendues et de nouvelles fonctionnalités révolutionnaires. De Xai's Grok 3 et Anthropic's Claude 3.7 Sonnet, à Openai's G

Yolo (vous ne regardez qu'une seule fois) a été un cadre de détection d'objets en temps réel de premier plan, chaque itération améliorant les versions précédentes. La dernière version Yolo V12 introduit des progrès qui améliorent considérablement la précision

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

L'article traite des modèles d'IA dépassant Chatgpt, comme Lamda, Llama et Grok, mettant en évidence leurs avantages en matière de précision, de compréhension et d'impact de l'industrie. (159 caractères)

Mistral OCR: révolutionner la génération de la récupération avec une compréhension du document multimodal Les systèmes de génération (RAG) (RAG) de la récupération ont considérablement avancé les capacités d'IA, permettant à de vastes magasins de données pour une responsabilité plus éclairée

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton
