HuggingFace vous apprend à créer un modèle visuel SOTA-IA-php.cn

Table des matières

Venent de la pratique de développement de modèles SOTA

Le modèle de langage a un plus grand impact sur les performances globales

Choisissez le type d'architecture en fonction de vos besoins

Expériences en phase de formation

Diversité des données et stratégies de traitement

Maison

Périphériques technologiques

HuggingFace vous apprend à créer un modèle visuel SOTA

王林

Jun 05, 2024 pm 09:39 PM

模型视觉 sota

Avant, il y avait le GPT-4o d'OpenAI, et plus tard, il y avait la série de grands modèles multimodaux avancés de Google qui sont entrés en scène les uns après les autres.

D'autres pratiquants ont été choqués et ont commencé à réfléchir à la manière de rattraper à nouveau ces super modèles.

Dans cet article de HuggingFace et de l'Université de la Sorbonne en France, ils ont résumé les expériences clés dans la création de grands modèles visuels et ont indiqué une voie à suivre pour les développeurs.

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

Ces expériences couvrent de nombreux aspects tels que la sélection de l'architecture du modèle, les méthodes de formation, les données de formation, etc. L'auteur a donné un résumé détaillé après plusieurs comparaisons. Les points essentiels sont les suivants :

Si vous voulez faire du bon travail dans de grands modèles visuels, le choix de l'architecture est très important.
Le modèle de langage a un plus grand impact sur les performances globales que le module visuel.
L'adoption d'une stratégie de pré-formation par étapes est plus propice au développement des capacités du modèle.
Les données d'entraînement doivent contenir plusieurs types et faire attention à l'équilibre entre eux.

On peut dire que HF a pu créer Idefics2, un modèle visuel SOTA de même échelle, en s'appuyant sur ces expériences.

Idefics2 est basé sur Mistral-7B. Il a un volume de paramètres global de 8B et peut reconnaître avec précision les polices manuscrites.

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

C'est une bonne critique de professionnels qui disent qu'il s'agit d'un bon rapport d'enquête et qu'il est très utile aux développeurs de modèles visuels, mais en même temps, il est également rappelé de ne pas le traiter comme une panacée .

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

Bien sûr, certaines personnes plaisantent en disant que toutes les données d'architecture ne sont qu'un cloud et qu'avoir un GPU est le plus essentiel.

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

Il y a une part de vérité là-dedans, mais blague à part, jetons un coup d'œil aux expériences que HuggingFace nous a apportées.

Venent de la pratique de développement de modèles SOTA

Ces expériences contenues dans l'article HuggingFace proviennent du processus de développement du modèle visuel Idefics2.

Par rapport à la génération précédente Idefics1 et Flamingo, à la même échelle ex-SOTA, Idefics2 fonctionne bien sur plusieurs ensembles de données, surpassant même le plus grand modèle 13B.

Dans le même temps, par rapport à MM1 qui est légèrement meilleur qu'Idefics2 sur l'ensemble de données COCO, Idefics2 consomme beaucoup moins de jetons sur chaque image.

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

Depuis le développement actuel d'Idefics2, l'expérience que HuggingFace nous apporte comprend au moins les aspects suivants :

sélection du squelette et de l'architecture
Méthodes et stratégies de formation
Diversité et stratégie de traitement des données

Le modèle de langage a un plus grand impact sur les performances globales

Les grands modèles visuels actuels sont principalement développés sous la forme d'un modèle de langage + encodeur visuel. L'auteur a évalué séparément l'impact des deux sur les performances globales.

Les résultats montrent que la qualité du modèle linguistique est plus importante que le modèle visuel.

Avec le même nombre de paramètres, l'utilisation d'un meilleur modèle de langage (comme le remplacement de Llama-7B par Mistral-7B) peut améliorer considérablement les performances des grands modèles visuels sur les tâches en aval.

L'amélioration apportée par la mise à niveau de l'encodeur visuel est relativement limitée, la meilleure façon de faire des compromis est donc de donner la priorité à des modèles de langage plus forts.

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

Bien entendu, cela ne signifie pas que la mise à niveau de l'encodeur visuel n'a aucun effet lorsque les conditions le permettent, le choix d'un meilleur encodeur visuel peut également entraîner certaines améliorations de performances.

De plus, une attention particulière doit être portée à la sélection pour correspondre aux tâches en aval. Par exemple, sur les tâches de reconnaissance de texte, un encodeur visuel prenant en charge une résolution variable doit être utilisé si la tâche nécessite une vitesse d'inférence élevée, un modèle plus léger peut être utilisé ; être sélectionné.

Et dans les applications pratiques, la vitesse d'inférence et l'utilisation de la mémoire sont également des facteurs qui doivent être pris en compte. Le SigLIP-SO400M sélectionné par Idefics2 a atteint un bon équilibre entre performances et efficacité.

Choisissez le type d'architecture en fonction de vos besoins

Concernant le choix de l'architecture, cet article aborde les deux plus courantes, l'autorégression complète et l'attention croisée.

L'architecture entièrement autorégressive génère chaque sortie de manière autorégressive, en tenant compte des dépendances de la séquence entière.

Cette dernière permet au modèle de se concentrer dynamiquement sur différentes parties d'une autre modalité lors du traitement d'une modalité, obtenant ainsi une interaction plus flexible entre modalités.

Dans des travaux spécifiques, l'auteur a découvert que l'architecture la plus performante dépend du gel du squelette pré-entraîné.

(En termes simples, si le squelette pré-entraîné participe au processus de formation formel, il n'est pas gelé, et s'il ne participe pas, il est gelé)

S'il n'est pas gelé, l'architecture entièrement autorégressive fonctionne mieux , et vice versa, l’architecture d’attention croisée fonctionne mieux.

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

Quant à savoir si la colonne vertébrale doit être gelée, cela dépend de l'orientation des besoins du développeur.

Dans des conditions de ressources limitées, si vous avez besoin de performances élevées et êtes très sensible à la latence, le gel est plus approprié

Si vous souhaitez que le modèle ait une plus grande flexibilité et adaptabilité, vous devez choisir la méthode d'entraînement sans gel ;

Spécifiquement pour Idefics2, nous avons choisi de ne pas geler le backbone, nous avons donc adopté une architecture entièrement autorégressive en conséquence.

HuggingFace vous apprend à créer un modèle visuel SOTA Photos

Expériences en phase de formation

Le choix de l'architecture appropriée est important, mais le processus de formation est également essentiel Au cours du processus de formation d'Idefics2, l'auteur a résumé ces expériences pour notre référence :

La première. consiste à adopter une stratégie de pré-formation par étapes dans son ensemble, en utilisant des images de faible résolution dans la phase initiale, puis en introduisant des documents PDF de plus haute résolution. Cette approche peut progressivement développer les multiples capacités du modèle.

La seconde consiste à utiliser le Learned Pooling au lieu d'introduire directement les fonctionnalités de l'image dans le modèle de langage, ce qui peut réduire considérablement le nombre de jetons d'image, améliorer considérablement l'efficacité de la formation et de l'inférence, et également entraîner des améliorations des performances.

La troisième est l'amélioration des données. Une méthode consiste à diviser l'image en plusieurs sous-images et à les envoyer au modèle pendant l'entraînement. Cela peut échanger du temps de calcul pour de meilleures performances lors de l'inférence. , mais ce n'est pas le cas. Toutes les images doivent être traitées de cette façon.

Quatrièmement, l'utilisation de données et de tâches plus diversifiées dans la phase de réglage fin de l'instruction peut améliorer la généralisation et la robustesse du modèle.

De plus, afin de stabiliser l'entraînement, lorsque le squelette monomodal pré-entraîné participe à l'entraînement (non figé), l'auteur utilise également la technologie LoRA pour adapter les paramètres de pré-entraînement.

Diversité des données et stratégies de traitement

En plus du processus de formation lui-même, les données sélectionnées auront également un impact significatif sur les performances du modèle.

Dès le début de la phase de collecte, il convient de prêter attention à la sélection de plusieurs types de données. Par exemple, les données utilisées par Idefics2 comprennent trois catégories : les documents avec alignement d'image et de texte (comme les pages Web), les paires image-texte. (tels que les titres d'images) et les documents PDF avec annotation OCR.

Les proportions des différents types de données doivent également être correctement équilibrées en fonction des besoins réels, plutôt que simplement divisées en parties égales.

En ce qui concerne la taille des données, plus c'est mieux si les conditions le permettent. Bien entendu, il convient de prêter attention au filtrage des données de mauvaise qualité.

Bien sûr, la collecte n'est qu'une étape pour obtenir les données d'entraînement. Si vous souhaitez bien entraîner le modèle, certains traitements sont nécessaires.

Utilisez différentes stratégies de prétraitement et d'amélioration pour différents types de données. Par exemple, pour les données OCR, il est nécessaire d'utiliser des images de résolution plus élevée, tandis que d'autres données peuvent utiliser une résolution plus faible.

Il convient de noter que le rapport hauteur/largeur et la résolution d'origine doivent être conservés lors du traitement des images, ce qui peut réduire considérablement la charge de calcul liée à la formation et à l'inférence tout en améliorant l'adaptabilité du modèle.

Si vous pensez que ces expériences vous ont inspiré, vous pouvez lire l'article original pour plus de détails. Vous êtes également invités à partager votre expérience de développement dans la zone de commentaires.

Adresse papier :https://www.php.cn/link/52c8b8d56837155b4870fc2658b676f0

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Système de fusion, expliqué

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Clair Obscur: Expedition 33 UE-Sandfall Game Crash? 3 façons!

2 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1677

Tutoriel CakePHP

1431

Tutoriel Laravel

1333

Tutoriel PHP

1279

Tutoriel C#

1257

Afficher plus

Related knowledge

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Au-delà d'ORB-SLAM3 ! SL-SLAM : les scènes de faible luminosité, de gigue importante et de texture faible sont toutes gérées May 30, 2024 am 09:35 AM

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

See all articles