Idéalement formé le plus grand ViT de l'histoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues-IA-php.cn

Table des matières

Maison

Idéalement formé le plus grand ViT de l'histoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

王林

Apr 12, 2023 am 09:31 AM

语言模型 google

Les progrès du traitement du langage naturel ces dernières années proviennent en grande partie de modèles linguistiques à grande échelle. Chaque nouveau modèle publié poussera la quantité de paramètres et de données d'entraînement vers de nouveaux sommets, et améliorera également les classements de référence existants. !

Par exempleEn avril de cette année, Google a publié le modèle de langage de 540 milliards de paramètres PaLM (Pathways Language Model), qui a surpassé avec succès les humains dans une série de tests de langage et de raisonnement, en particulier dans les quelques- shot Les excellentes performances dans l'exemple de scénario d'apprentissage font également de PaLM la direction de développement du modèle de langage de nouvelle génération.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

De la même manière, le modèle de langage visuelen faitfonctionne également à merveille, et les performances peuvent être améliorées en augmentant l'échelle du modèle.

Bien sûr, si n'est qu'un modèle de langage visuel pour le multitâche , il n'est évidemment pas très universel, et il doit prendre en charge l'entrée et la sortie dans plusieurs langues .

Récemment, Google a mis à niveau l'extension PaLM vers PALI (Pathways Language and Image model), qui possède à la fois des capacités de compréhension multilingue et d'image et prend en charge plus de 100 langues pour effectuer diverses opérations cross-visuelles, langage et applications multimodales d'images et de langage, telles que la réponse visuelle aux questions, la légende d'image, la détection d'objets, la classification d'images, l'OCR, le raisonnement textuel, etc.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Lien papier : https://arxiv.org/abs/2209.06794

Le modèle est entraîné à l'aide d'une collection d'images publique, qui comprend 109 images automatiquement explorées. L'annotation du langage est également appelé WebLIdataset dans cet article.

Le modèle PaLI pré-entraîné sur WebLI atteint des performances de pointe sur plusieurs benchmarks d'images et de langues, tels que COCO-Captions, TextCaps, VQAv2, OK-VQA, TextVQA, etc., dépassant également les performances des modèles précédents. Une référence en matière de sous-titrage visuel multilingue et de réponse visuelle aux questions.

Architecture des modèles

L'un des objectifs de PALI est d'étudier si la relation entre les modèles

langage et visuel est la même en termes de performance et d'échelle, en particulier l'évolutivité des modèles langage-image.

La conception architecturale du modèle est donc très simple, principalement pour la commodité des expériences, notamment pour la réutilisabilité et l'évolutivité.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Le modèle se compose d'un encodeur Transformer qui traite le texte d'entrée et d'un décodeur Transformer autorégressif qui génère le texte de sortie.

Lors du traitement des images, l'entrée de l'encodeur Transformer comprend également des mots visuels représentant les images traitées par ViT.

Une conception clé du modèle PaLI est la réutilisation. Les chercheurs ont utilisé les poids de modèles de vision et de langage monomodaux préalablement formés (tels que mT5-XXL et les grands ViT) comme germes du modèle. rend le monomodal La capacité de formation dynamique est migrée et les coûts informatiques peuvent également être économisés.

Le composant visuel du modèle utilise

ViT-e, la plus grande architecture ViT à ce jour, qui a la même structure que le modèle ViT-G à 1,8 milliard de paramètres et utilise les mêmes paramètres d'entraînement. est étendu à 4 milliards de paramètres .

Bien que les lois de mise à l'échelle aient été étudiées dans les domaines visuel et linguistique, le comportement de mise à l'échelle a été moins exploré dans les modèles combinés de vision et de langage. L'élargissement de l'échelle du modèle de base visuelle peut entraîner des problèmes dans les tâches de classification. .

Les chercheurs l'ont également confirmé, et on peut observer que ViT-e n'est que légèrement meilleur que ViT-G sur ImageNet, mais ViT-e a une grande amélioration par rapport à la tâche de langage visuel de PaLI. Par exemple, ViT-e surpasse ViT-G de près de 3 points CIDEr sur la tâche de sous-titre COCO. 3 points de plus que ViT-G dans les tâches. Cela laisse également entrevoir la possibilité d'utiliser à l'avenir des modèles de squelette ViT plus grands dans des tâches de langage visuel.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Les chercheurs ont adopté le mT5 backbone comme composant de modélisation du langage, en utilisant mT5-Large (1 milliard de paramètres) et mT5-XXL (13 milliards de paramètres) pré-entraînés pour initialiser l'encodeur-décodeur de langage de PaLI. est ensuite continué à être formé de manière mixte sur de nombreuses tâches linguistiques, y compris des tâches de compréhension pure du langage, ce qui permet également d'éviter un oubli catastrophique des capacités de compréhension et de production du langage de mT5.

J'ai enfin reçu trois modèles PALI de tailles différentes.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Ensemble de données en 109 langues

Des recherches approfondies liées à l'apprentissage profond montrent que plus le modèle est grand, plus l'ensemble de données de formation requis est grand.

Ainsi, afin d'étudier de manière approfondie et de libérer le potentiel des modèles de pré-formation langage-image, les chercheurs ont exploré une grande quantité de données d'images et de texte sur Internet et ont construit un nouvel ensemble de données WebLI, qui comprend 120 images en 109 langues. Des milliards de textes alternatifs et 10 milliards d'images.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

En plus d'utiliser le texte Web pour l'annotation, les chercheurs ont également appliqué l'API Cloud Vision pour effectuer la reconnaissance OCR sur les images, obtenant ainsi 29 milliards de paires image-données OCR.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Les images des parties de formation, de validation et de test de 68 ensembles de données visuelles et de langage visuel courants ont été dédupliquées en utilisant la quasi-duplication pour éviter les fuites de données dans les tâches d'évaluation en aval.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Afin d'améliorer encore la qualité des données, les chercheurs évalueront également en fonction de la similarité intermodale de « l'image et du texte alternatif », ajusteront le seuil et ne conserveront finalement que 10 % des images, un total de 1 milliard d'images sont utilisées pour entraîner PaLI

Formation de grands modèles

Étant donné que la tâche de langage visuel est multimodale, le modèle doit avoir plusieurs capacités de traitement sémantique et aura des objectifs différents. Par exemple, certaines tâches nécessitent une localisation locale des objets pour résoudre la tâche avec précision, tandis que d'autres tâches peuvent nécessiter des informations sémantiques plus globales.

De même, certaines tâches linguistiques peuvent nécessiter des réponses longues, tandis que d'autres peuvent nécessiter des réponses compactes.

Pour répondre à tous ces objectifs incohérents, les chercheurs exploitent la richesse des données de pré-formation WebLI et introduisent un mélange de tâches de pré-formation pour préparer des modèles pour diverses applications en aval.

Afin de rendre le modèle plus polyvalent pour résoudre une variété de tâches, l'auteur a classé toutes les tâches dans une seule API commune (entrée : image + texte ; sortie : texte), permettant d'effectuer plusieurs tâches d'image et de langage. le partage des connaissances, qui est également partagé avec des paramètres pré-entraînés.

Les cibles utilisées pour la pré-formation sont projetées dans la même API sous forme de mix pondéré, dans le but à la fois de maintenir la capacité de réutiliser les composants du modèle tout en entraînant le modèle à effectuer de nouvelles tâches.

Le modèle utilise les frameworks open source T5X et Flaxformer et est formé avec Flax en JAX. La partie visuelle de ViT-e utilise le framework open source BigVision pour mettre en cascade les vecteurs de mots de la partie langage et les vecteurs de patch générés par. la partie visuelle. Ensemble, En entrée du codeur-décodeur multimodal, l'encodeur est initialisé à l'aide du pré-entraînement mT5-XXL. Pendant le processus de formation de PaLI, les poids des composants visuels sont figés et seuls les poids de l'encodeur-décodeur multimodal sont mis à jour.

Dans la partie expérimentale, les chercheurs ont comparé PaLI sur des critères de langage visuel courants, et le modèle PaLI a obtenu des résultats de pointe sur ces tâches, dépassant même les très grands modèles proposés dans la littérature précédente.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Par exemple, le PALI à 17 milliards de paramètres fonctionne mieux que le modèle Flamingo à 80 milliards de paramètres sur certaines tâches VQA et de sous-titrage d'images.

Et PALI maintient également de bonnes performances sur des tâches monolingues ou visuelles, bien que ce ne soit pas l'objectif principal de formation de PALI.

Nous examinons également comment les composants du modèle d'image et de langage interagissent en termes de mise à l'échelle du modèle, et où le modèle génère les gains les plus importants.

La conclusion finale est que la mise à l'échelle conjointe (mise à l'échelle) de ces deux composants donne les meilleures performances. Plus précisément, la mise à l'échelle du composant visuel qui nécessite relativement peu de paramètres est la plus critique, tandis que la mise à l'échelle est également importante pour améliorer les performances sur les tâches multilingues. .

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Après avoir évalué PaLI sur le benchmark Crossmodal-3600 en 35 langues, nous pouvons constater que la tâche de titre multilingue bénéficie davantage de l'extension du modèle PaLI.

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Pour éviter de créer ou de renforcer des préjugés injustes dans les grands modèles de langage et d'images, il est nécessaire d'être transparent sur les données utilisées et sur la manière dont les modèles utilisent ces données, ainsi que de tester l'équité des modèles. et effectuez une analyse responsable des données, l'article fournit donc à la fois une carte de données et une carte modèle

Idéalement formé le plus grand ViT de lhistoire ? Google met à niveau le modèle de langage visuel PaLI : prend en charge plus de 100 langues

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7514

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Selon les rumeurs, Google Pixel 9 et Pixel 9 Pro bénéficieraient de Creative Assistant AI dès leur sortie Jun 22, 2024 am 10:50 AM

Actuellement, quatre nouveaux smartphones Pixel devraient débarquer cet automne. Pour récapituler, la série devrait présenter les Pixel 9 et Pixel 9 Pro au lancement. Cependant, le Pixel 9 Pro sera un rival de l'iPhone 16 Pro plutôt que d'un Pixel 8 Pro (actuel

Google Pixel 9 Pro XL est testé avec le mode bureau Aug 29, 2024 pm 01:09 PM

Google a introduit le mode alternatif DisplayPort avec la série Pixel 8, et il est présent sur la gamme Pixel 9 récemment lancée. Bien qu'il soit principalement là pour vous permettre de refléter l'affichage de votre smartphone avec un écran connecté, vous pouvez également l'utiliser pour un ordinateur de bureau.

Google AI annonce Gemini 1.5 Pro et Gemma 2 pour les développeurs Jul 01, 2024 am 07:22 AM

Google AI a commencé à fournir aux développeurs un accès à des fenêtres contextuelles étendues et à des fonctionnalités économiques, à commencer par le modèle de langage large (LLM) Gemini 1.5 Pro. Auparavant disponible via une liste d'attente, la fenêtre contextuelle complète de 2 millions de jetons

Le démontage de l'APK bêta de l'application Google révèle de nouvelles extensions à venir pour l'assistant Gemini AI Jul 30, 2024 pm 01:06 PM

L'assistant IA de Google, Gemini, devrait devenir encore plus performant si le démontage de l'APK de la dernière mise à jour (v15.29.34.29 bêta) doit être envisagé. Le nouvel assistant IA du géant technologique pourrait bénéficier de plusieurs nouvelles extensions. Ces extensions seront

Google Tensor G4 du Pixel 9 Pro XL est en retard sur Tensor G2 en Genshin Impact Aug 24, 2024 am 06:43 AM

Google a récemment répondu aux problèmes de performances concernant le Tensor G4 de la gamme Pixel 9. La société a déclaré que le SoC n'était pas conçu pour battre les benchmarks. Au lieu de cela, l'équipe s'est concentrée sur sa performance dans les domaines où Google souhaite que le c

Les smartphones Google Pixel 9 ne seront pas lancés avec Android 15 malgré un engagement de mise à jour de sept ans Aug 01, 2024 pm 02:56 PM

La série Pixel 9 est presque là, sa sortie étant prévue pour le 13 août. D'après des rumeurs récentes, les Pixel 9, Pixel 9 Pro et Pixel 9 Pro XL refléteront les Pixel 8 et Pixel 8 Pro (749 $ sur Amazon) en commençant par 128 Go de stockage.

Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Jul 25, 2024 am 06:42 AM

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Le nouveau mode de bureau Google Pixel présenté dans une nouvelle vidéo comme alternative possible à Motorola Ready For et Samsung DeX Aug 08, 2024 pm 03:05 PM

Quelques mois se sont écoulés depuis qu'Android Authority a démontré un nouveau mode de bureau Android que Google avait caché dans Android 14 QPR3 Beta 2.1. Arrivant juste après Google, il ajoute la prise en charge du mode Alt DisplayPort pour les Pixel 8 et Pixel 8.

See all articles