Table des matières
Modèle de texte de type Bert
1. BERT Google / 2018
2, RoBERTa Facebook / 2019
3. Dans le XLM original, toutes les langues avaient un vocabulaire BPE commun.
Ce modèle est conçu pour traiter de longues séquences et a deux idées principales : le traitement en boucle des fragments et l'encodage de position relative.
Intégrez des informations sur les entités nommées dans le graphe de connaissances dans BERT. L'entrée se compose d'un ensemble de jetons de texte et d'un ensemble de jetons d'entité (chaque jeton représente une entité entière). Les jetons de texte sont codés par BERT. Au-dessus de BERT, il existe un ensemble de blocs d'encodeurs K (représentant environ 3 % des paramètres du réseau). Dans ces blocs :
7、ALBERT Google / 2019
8、DistilBERT Google / 2019
9, LaBSE Google / 2020
10, ELECTRA Google, Stanford University / 2020
11、DeBERTa Microsoft / 2020
2, T5 Google/2019
Masquage des jetons

4, Alpaca Stanford University / 2023

5, Koala Berkeley University / 2023
Un auto-encodeur VAE pour la réduction de dimensionnalité et la génération à partir de l'espace latent
Les modèles de cette section sont souvent appelés modèles multimodaux car ils sont capables d'analyser des données de différentes natures tout en générant du texte. Le texte généré peut être un langage naturel ou un ensemble de commandes, comme celles d'un robot.
Un encodeur d'image séparé (ViT ou CNN) + un décodeur partagé où la première moitié gère le texte et la seconde moitié les images La sortie de l'encodeur est traité avec le texte.
La sortie de la première moitié du décodeur est un vecteur de texte et un vecteur de jeton CLS à la fin de la séquence, tokenisés à l'aide de sentencepece (vocabulaire 64K). Les vecteurs de texte et d'image sont fusionnés dans la seconde moitié du décodeur via une attention croisée.
2. PaLM-E Google / 2023
3. GPT-4 OpenAI/2023
Résumé
Maison Périphériques technologiques IA Examen des transformateurs : de BERT à GPT4

Examen des transformateurs : de BERT à GPT4

May 10, 2023 pm 11:25 PM
人工智能 机器学习

L'intelligence artificielle est devenue l'un des sujets les plus évoqués ces dernières années, et des services autrefois considérés comme de la pure science-fiction deviennent désormais une réalité grâce au développement des réseaux de neurones. Des agents conversationnels à la génération de contenu multimédia, l’intelligence artificielle change la façon dont nous interagissons avec la technologie. En particulier, les modèles d’apprentissage automatique (ML) ont fait des progrès significatifs dans le domaine du traitement du langage naturel (NLP). Une avancée majeure est l'introduction de « l'auto-attention » et de l'architecture Transformers pour le traitement des séquences, qui permet de résoudre plusieurs problèmes clés qui dominaient auparavant le domaine.

Transformers回顾 :从BERT到GPT4

Dans cet article, nous examinerons l'architecture révolutionnaire des Transformers et comment elle change la PNL. Nous fournirons également un examen complet des modèles Transformers de BERT à Alpaca, en nous concentrant sur les principales caractéristiques de chaque modèle et. ses applications potentielles.

Modèle de texte de type Bert

La première partie est un modèle basé sur l'encodeur Transformer, qui est utilisé pour la vectorisation, la classification, l'étiquetage de séquence, l'assurance qualité (question et réponse), le NER (reconnaissance d'entité nommée), etc.

1. BERT Google / 2018

Encodeur de transformateur, tokenisation de mots (vocabulaire 30K). L'intégration d'entrée se compose de trois vecteurs : un vecteur d'étiquette, un vecteur de position pouvant être entraîné et un vecteur de fragment (soit le premier texte, soit le deuxième texte). Les entrées du modèle sont l'intégration du jeton CLS, l'intégration du premier texte et l'intégration du deuxième texte.

BERT a deux tâches de formation : la modélisation du langage masqué (MLM) et la prédiction de la phrase suivante (NSP). En MLM, 15 % des tokens sont masqués, 80 % sont remplacés par des tokens MASK, 10 % sont remplacés par des tokens aléatoires et 10 % restent inchangés. Le modèle prédit les bons tokens, et la perte est calculée uniquement sur ces 15 % de tokens bloqués. Dans NSP, le modèle prédit si le deuxième texte suit le premier texte. Les prédictions sont faites sur le vecteur de sortie des jetons CLS.

Pour accélérer la formation, d'abord 90 % de la formation est effectuée sur une longueur de séquence de 128 jetons, puis les 10 % restants du temps sont consacrés à entraîner le modèle sur 512 jetons pour obtenir des intégrations de position plus efficaces.

2, RoBERTa Facebook / 2019

Une version améliorée de BERT, il est uniquement formé sur MLM (car NSP est considéré comme moins utile), et la séquence de formation est plus longue (512 tokens). Grâce au masquage dynamique (différents jetons sont masqués lorsque les mêmes données sont à nouveau traitées), les hyperparamètres d'entraînement sont soigneusement choisis.

3. Dans le XLM original, toutes les langues avaient un vocabulaire BPE commun.

XLM a deux tâches de formation : MLM et traduction. La traduction est essentiellement la même que le MLM sur une paire de textes, mais les textes sont des traductions parallèles les uns des autres, avec des masques aléatoires et des langages de codage intégrant des segments.

4. Transformer-XL Carnegie Mellon University / 2019

Ce modèle est conçu pour traiter de longues séquences et a deux idées principales : le traitement en boucle des fragments et l'encodage de position relative.

Les textes longs sont divisés en segments et traités un segment à la fois. La sortie du segment précédent est mise en cache et lors du calcul de l'auto-attention dans le segment actuel, les clés et les valeurs sont calculées en fonction de la sortie du segment actuel et du segment précédent (juste concaténés ensemble). Le dégradé est également calculé uniquement dans le segment actuel.

Cette méthode ne fonctionne pas avec des positions absolues. Par conséquent, la formule de pondération d’attention est reparamétrée dans le modèle. Le vecteur de codage de position absolue est remplacé par une matrice fixe basée sur le sinus de la distance entre les positions des marqueurs et un vecteur entraînable commun à toutes les positions.

5. Université ERNIE Tsinghua, Huawei / 2019

Intégrez des informations sur les entités nommées dans le graphe de connaissances dans BERT. L'entrée se compose d'un ensemble de jetons de texte et d'un ensemble de jetons d'entité (chaque jeton représente une entité entière). Les jetons de texte sont codés par BERT. Au-dessus de BERT, il existe un ensemble de blocs d'encodeurs K (représentant environ 3 % des paramètres du réseau). Dans ces blocs :

Le vecteur de mise à jour du jeton de texte et le vecteur d'origine du jeton d'entité sont d'abord calculés indépendamment
  • Les vecteurs d'entité sont adaptés au premier jeton qu'ils apparaissent dans le texte ; et utilisé pour obtenir de nouvelles représentations cachées de jetons de texte ;
  • De nouveaux vecteurs de jetons de texte et d'entité sont obtenus à partir des représentations cachées et transmis en entrée au bloc d'encodeur suivant.
  • Lors de la pré-formation, trois pertes sont calculées : MLM, NSP et prédiction d'entité à partir de tokens (comme l'autoencodeur), l'autoencodeur utilise les règles suivantes :
Dans 5% des cas, l'entité remplacée n'est pas la bonne entité , mais la correspondance est conservée et le modèle doit prédire la bonne entité ;

Dans 15 % des cas, la correspondance est supprimée et le modèle doit prédire l'entité en se basant uniquement sur le texte ;
  • Dans les autres cas, c'est normal ;
  • Les modèles pré-entraînés peuvent être affinés comme les modèles BERT classiques (avec des jetons CLS). Des procédures supplémentaires peuvent également être utilisées pour affiner la détermination des relations entre les entités et leurs types.
  • 6. XLNet Carnegie Mellon University / 2019

Parce qu'il y a des problèmes dans le processus de formation BERT :

  • Pendant l'entraînement, le calcul des pertes ne calcule que les marques du masque.
  • Seuls les marqueurs individuels sont bloqués, et la prédiction d'un marqueur bloqué n'affectera pas la prédiction des autres marqueurs.
  • Il n'y a pas de jetons MASK dans les applications réelles que le modèle voit activement pendant l'entraînement.

XLNet est basé sur Transformer-XL, à l'exception des tâches de modélisation de langage de remplacement (PLM), où il apprend à prédire les jetons dans des contextes courts au lieu d'utiliser directement MASK. Cela garantit que les dégradés sont calculés pour tous les marqueurs et élimine le besoin de marqueurs de masque spéciaux.

Les jetons dans le contexte sont brouillés (par exemple : le i-ème jeton peut être prédit en fonction des i-2 et i+1-ème jetons), mais leurs positions sont toujours connues. Cela n'est pas possible avec les codages de position actuels (y compris Transformer-XL). Lorsqu'il essaie de prédire la probabilité qu'un jeton fasse partie d'un contexte, le modèle ne doit pas connaître le jeton lui-même, mais doit connaître la position du jeton dans le contexte. Pour résoudre ce problème, ils ont divisé l'attention personnelle en deux flux :

  • À chaque position de marqueur, il y a deux vecteurs au lieu d'un : le vecteur de contenu et le vecteur de requête.
  • Le vecteur de contenu contient des informations complètes sur le jeton, tandis que le vecteur de requête ne contient que des informations de localisation.
  • Les deux vecteurs de jeton sont calculés en fonction du vecteur de contexte, mais le vecteur de requête en auto-attention est calculé en utilisant le vecteur de contenu passé, et le vecteur de contenu est calculé en utilisant le vecteur de requête passée.
  • le vecteur de requête ne reçoit pas d'informations sur le contenu du jeton correspondant, mais connaît toutes les informations sur le contexte, tandis que le vecteur de contenu contient des informations complètes.

Pendant le réglage fin, si vous ignorez le vecteur de requête, le modèle fonctionnera comme un Transformer-XL classique.

En pratique le modèle nécessite que le contexte soit suffisamment long pour que le modèle apprenne correctement. Il a appris sur la même quantité de données que RoBERTa avec des résultats similaires, mais en raison de la complexité de la mise en œuvre, le modèle n'est pas devenu aussi populaire que RoBERTa.

7、ALBERT Google / 2019

Simplifier BERT sans sacrifier la qualité:

  • Dans différents blocs d'encodeur Les paramètres communs sont utilisés dans , et il a été démontré que les poids de l’attention personnelle peuvent être partagés, mais que séparer les poids de couches entièrement connectées entraînera une diminution de la qualité.
  • Par rapport à BERT, des intégrations d'entrée plus petites et des vecteurs de couches cachées plus grands sont utilisés. Ceci peut être réalisé en utilisant une matrice de projection supplémentaire à l'entrée du réseau, qui dissocie également la taille de l'intégration de la taille de la représentation cachée.
  • Les paramètres du modèle sont réduits de 18 fois et la vitesse de course est augmentée de 1,7 fois.

Le modèle est formé au MLM et à la prédiction d'ordre de peine (SOP).

8、DistilBERT Google / 2019

Une autre façon d'optimiser BERT est la distillation :

  • Le nombre de blocs d'encodeurs est réduit de moitié
  • Trois composantes de perte : MLM, entropie croisée avec la sortie du modèle d'enseignant et la distance cosinusoïdale entre les sorties de couche correspondantes.
  • Le modèle est 40 % plus petit et 60 % plus rapide que le modèle enseignant, et maintient une qualité de 97 % dans une variété de tâches.

9, LaBSE Google / 2020

Modèle de vectorisation multilingue basé sur BERT. Il est entraîné sur MLM et TLM (20% des marqueurs sont masqués) puis affiné. Il prend en charge plus de 100 langues et contient 500 000 vocabulaires balisés.

10, ELECTRA Google, Stanford University / 2020

Utiliser la méthode contradictoire générative pour accélérer la formation BERT :

  • Formation de deux classes modèle bert : un petit générateur et un discriminateur principal
  • Le générateur est formé sur le MLM puis peuplé de tokens masqués
  • Le discriminateur est formé pour prédire généré par l'originalité du texte généré par le générateur (tâche de détection de remplacement)
  • Une fois la formation terminée, retirez le générateur et utilisez le discriminateur pour affiner

Le nombre de les données de formation sont cohérentes avec RoBERTa ou XLNet sont les mêmes, et le modèle apprend plus rapidement que BERT, RoBERTa et ALBERT à un niveau de qualité similaire. Plus il est entraîné longtemps, plus il est performant.

11、DeBERTa Microsoft / 2020

Un autre modèle qui sépare le contenu et la position du vecteur marqueur en deux vecteurs distincts :

    #🎜🎜 # Les vecteurs de position sont partagés entre toutes les couches et sont relatifs, c'est-à-dire qu'il y en a un pour chaque distance possible entre les marqueurs.
  • Ajout de deux nouvelles matrices de poids K_pos et Q_pos pour eux.
  • Modifiez le calcul du poids d'attention et simplifiez-le à la somme de trois produits : Q_cont * K_cont + Q_cont * K_pos + K_cont * Q_pos
  • Comme dans ALBERT, utilisez la projection La matrice découple la taille d'intégration de la taille du vecteur de représentation du jeton caché.
Un modèle similaire aux GPT et T5

Un modèle basé sur des Transformers complets. Sa gamme d'applications est très large : en plus des tâches de la section précédente, elle inclut les agents conversationnels, la traduction automatique, le raisonnement logique et mathématique, l'analyse et la génération de code et, essentiellement, la génération de texte. Les modèles les plus grands et les plus « intelligents » sont généralement basés sur des architectures de décodeur. De tels modèles fonctionnent souvent bien dans les modes peu de tirs et zéro tir sans réglage fin.

1, GPT-2 OpenAI/2018

Le décodeur est formé à la tâche de LM causal (prédire le prochain jeton en fonction du contexte de gauche). D'un point de vue architectural, il y a quelques changements mineurs : la couche d'attention croisée est supprimée de chaque bloc décodeur et LayerNorm

est utilisé

Le tokenizer utilisé est un BPE au niveau de l'octet (vocabulaire 50K) et n'utilise pas de sous-chaînes similaires telles que ("chien", "chien !", "chien".). La longueur maximale de la séquence est de 1 024. La sortie de la couche met en cache toutes les balises générées précédemment.

2, T5 Google/2019

Pré-formation complète sur MLM (15% de tokens masqués), spans masqués par code (, ,…) bouclier. Séquence de prédiction de sortie < Utilisez l'encodage de position relative : Les positions sont codées par des intégrations apprenables, où chaque « intégration » est juste un scalaire qui ajoute le logit correspondant lors du calcul des poids d'attention.

La matrice B est partagée entre les couches, mais elle est différente selon les différentes têtes d'attention personnelle.

Chaque couche prend en compte 128 distances entre les jetons et met à zéro le reste, permettant une inférence sur des séquences plus longues par rapport à celles observées lors de l'entraînement.

La tokenisation se fait à l'aide de sentencepece (vocabulaire 32K), avec une longueur de séquence maximale de 512 pendant la pré-formation.

3. BART Facebook / 2019

Un autre transformateur complet, mais utilisant GeLU au lieu de ReLU. Entraînez-le à prédire le texte original à partir d'un texte bruyant (débruitage AE) avec les types de bruit suivants :

Masquage des jetons

Suppression des jetons

    Remplissage des jetons
  • Ordre des jetons inversé dans les phrases
  • Créer des jetons aléatoires Début de la séquence
  • Utilisez BPE au niveau de l'octet (taille du vocabulaire 50 Ko)
  • 4, CTRL Salesforce / 2019
Utilisez des jetons de code de préfixe (par exemple,

texte d'entrée…) pour contrôler le périphérique de décodage résultant. Les codes sont attribués au texte approprié pendant la formation, puis utilisés lors de l'inférence pour générer un texte au style correspondant. Le modèle est formé sur le LM causal et aucune perte supplémentaire n'est utilisée. La tokenisation utilisée est BPE et la taille du vocabulaire est de 250 Ko.

5. GPT-3 OpenAI / 2020

Il s'agit d'un modèle GPT-2 avec une architecture Sparse Transformer et une longueur de séquence accrue de 2048 jetons. Vous souvenez-vous encore de cette phrase : Ne demandez pas, demandez, c'est GPT3

6, mT5 Google / 2020

basé sur le modèle T5, avec une formation similaire, mais utilisant des données multilingues. Les activations ReLU ont été remplacées par GeGLU et le vocabulaire a été étendu à 250 000 jetons.

7, GLAM Google / 2021

Ce modèle est conceptuellement similaire à Switch Transformer, mais se concentre davantage sur le travail en mode quelques prises plutôt que sur le réglage fin. Les modèles de différentes tailles utilisent 32 à 256 couches expertes, K=2. Utilisez le codage de position relative de Transformer-XL. Lors du traitement des jetons, moins de 10 % des paramètres réseau sont activés.

8, LaMDA Google / 2021

Un modèle de type gpt. Le modèle est un modèle conversationnel pré-entraîné sur le LM causal et affiné sur les tâches de génération et discriminantes. Le modèle peut également faire des appels à des systèmes externes (recherche, traduction).

9. GPT-NeoX-20B EleutherAI / 2022

Ce modèle est similaire au GPT-J et utilise également l'encodage de position de rotation. Les poids des modèles sont représentés par float16. La longueur maximale de la séquence est de 2 048.

10, BLOOM BigScience / 2022

Il s'agit du plus grand modèle open source en 46 langages et 13 langages de programmation. Pour entraîner le modèle, un grand ensemble de données agrégées appelé ROOTS est utilisé, qui comprend environ 500 ensembles de données ouverts.

11, PaLM Google / 2022

Il s'agit d'un grand modèle de décodeur multilingue, formé à l'aide d'Adafactor, désactivant l'abandon pendant la pré-formation et utilisant 0,1 lors du réglage fin.

12, LLaMA Meta/2023

Un LM open source à grande échelle de type gpt pour la recherche scientifique, qui a été utilisé pour former plusieurs modèles d'instruction. Le modèle utilise le pré-LayerNorm, l'activation SwiGLU et l'intégration de la position RoPE. Parce qu'il est open source, c'est l'un des principaux modèles pour dépasser dans les virages.

Modèles de guidage pour le texte

Ces captures de modèle sont utilisées pour corriger les sorties du modèle (par exemple RLHF) afin d'améliorer la qualité des réponses pendant le dialogue et la résolution de tâches.

1. InstructGPT OpenAI/2022

Ce travail adapte GPT-3 pour suivre efficacement les instructions. Le modèle est affiné sur un ensemble de données composé d'indices et de réponses que les humains considèrent comme bonnes sur la base d'un ensemble de critères. Basé sur InstructGPT, OpenAI a créé un modèle que nous connaissons désormais sous le nom de ChatGPT.

2, Flan-T5 Google / 2022

Modèle de guidage adapté au T5. Dans certaines tâches, le Flan-T5 11B a surpassé le PaLM 62B sans ce réglage fin. Ces modèles ont été publiés en open source.

3. Sparrow DeepMind / 2022

Le modèle de base est obtenu en affinant Chinchilla sur des conversations sélectionnées de haute qualité, avec les premiers 80 % des couches gelées. Le modèle a ensuite été formé à l’aide d’une grande invite pour le guider tout au long de la conversation. Plusieurs modèles de récompense sont également formés sur Chinchilla. Le modèle peut accéder à un moteur de recherche et récupérer des extraits de 500 caractères maximum qui peuvent devenir des réponses.

Lors de l'inférence, le modèle de récompense est utilisé pour classer les candidats. Les candidats sont soit générés par le modèle, soit obtenus à partir de la recherche, et le meilleur devient alors la réponse.

4, Alpaca Stanford University / 2023

Le modèle d'orientation de LLaMA ci-dessus. L'accent principal est mis sur le processus de création d'un ensemble de données à l'aide de GPT-3 :

  • L'objectif est d'obtenir un ensemble de triplets Tâche-Entrée-Sortie, où l'entrée peut être vide.
  • Les humains génèrent 175 invites de tâches avec des réponses, qui sont introduites dans GPT-3, et GPT-3 génère de nouvelles tâches.
  • Le processus de génération est itératif, et à chaque étape, des exemples de tâches provenant d'humains et d'autres provenant d'exemples de tâches générés précédemment sont fournis.
  • GPT-3 divise les tâches générées en tâches de classification ou en tâches de non-classification, et génère différentes entrées et sorties en fonction de cela.
  • Les triples sont filtrés en fonction de leur qualité et de leur dissemblance avec les triples existants dans la base de données.

Un total de 52K triples uniques ont été générés et affinés sur LLaMA 7B.

5, Koala Berkeley University / 2023

Il s'agit d'un réglage fin de LLaMA sur les données d'instruction, mais contrairement à Alpaca ci-dessus, il n'est pas seulement affiné sur GPT- 3, etc. Mise au point sur les données générées par les grands modèles. La composition de l'ensemble de données est la suivante :

  • 30k échantillons d'explications et de réponses sur les mathématiques, la poésie et le dialogue ;
  • 52K échantillons de l'ensemble de données Alpaca ;# 🎜 🎜#
  • 160K réponses aux modèles avec les préférences des utilisateurs en matière d'utilité et de préjudice ;
  • 20K réponses aux modèles avec des questions et des évaluations des utilisateurs ;
  • 93K En résumé, les utilisateurs ont noté sa qualité
Il n'y a pas d'augmentation de qualité par rapport au GPT-3. Mais lors des tests aveugles, les utilisateurs ont préféré les réponses de Koala à celles d'Alpaga.

Un modèle pour générer des images à partir de texte

Générateur d'images basé sur une description de texte. Les modèles de diffusion combinés à des transformateurs dominent ce domaine, permettant non seulement la génération d'images mais également la manipulation de contenu et l'amélioration de la résolution.

1, DALL-E OpenAI / 2021

Ce travail s'effectue en deux étapes : un entraînement à l'étiquetage des images, puis un apprentissage d'un modèle génératif commun de texte et d'images .

Dans la première étape, dVAE est formé, où l'image est convertie de l'espace 256x256x3 à 32x32xdim et inversement, où dim est la dimension du vecteur de représentation caché. Il existe au total 8 192 vecteurs marqueurs de ce type, qui seront utilisés plus loin dans le modèle.

Le modèle principal utilisé est le décodeur à transformateur clairsemé. En prenant les jetons de texte et les jetons d'image en entrée, le modèle apprend une distribution conjointe (Causal LM), après quoi des jetons d'image peuvent être générés sur la base du texte. dVAE génère une image basée sur ces mêmes jetons. La perte de poids pour les balises de texte est de 1/8 et la perte de poids pour les balises d'image est de 7/8.

Pour les balises de texte, il existe des intégrations régulières et des intégrations positionnelles, et pour les balises d'image, il existe des intégrations régulières, ciblées par colonnes et par lignes. La longueur maximale de la séquence de jetons de texte est de 256 et la tokenisation est BPE (vocabulaire 16 Ko).

2, GLIDE OpenAI / 2021

Un modèle de diffusion (DM) qui fonctionne au niveau du pixel et est contrôlé par du texte. Il est basé sur l'architecture U-Net avec convolution, attention et connexions résiduelles. Utilisez différentes méthodes pour contrôler la génération. Produit scalaire de vecteurs d'images et de vecteurs de texte obtenus à l'aide de CLIP Le modèle de diffusion de travail contient principalement 2 modèles :

Un auto-encodeur VAE pour la réduction de dimensionnalité et la génération à partir de l'espace latent

# 🎜🎜# DM pour la représentation interne

    Les auto-encodeurs sont formés à la manière d'un gan, en utilisant un discriminateur sur leurs résultats et en appliquant une régularisation supplémentaire pour représenter la proximité d'une distribution normale standard.
  • Le résultat passe en décodage DM dans l'espace latent : si la condition est un vecteur, elle est concaténée au vecteur latent en entrée de l'étape, si c'est une séquence de vecteurs, elle est utilisé pour le croisement de différentes couches U-Net. Pour les astuces textuelles, utilisez les vecteurs CLIP.
  • Ce modèle général peut être entraîné pour différentes tâches : texte en image, colorisation, peinture, super-résolution.

4, Imagen Google / 2022

L'idée principale derrière Imagen est qu'augmenter la taille de l'encodeur de texte peut apporter plus d'avantages au modèle génératif que d'augmenter la taille du DM. CLIP a donc été remplacé par T5-XXL.

Modèles qui génèrent du texte à partir d'images

Les modèles de cette section sont souvent appelés modèles multimodaux car ils sont capables d'analyser des données de différentes natures tout en générant du texte. Le texte généré peut être un langage naturel ou un ensemble de commandes, comme celles d'un robot.

1、CoCa Google / 2022

Un encodeur d'image séparé (ViT ou CNN) + un décodeur partagé où la première moitié gère le texte et la seconde moitié les images La sortie de l'encodeur est traité avec le texte.

L'image 288x288 est découpée en morceaux de 18x18 et l'encodeur la convertit en un vecteur + un vecteur de pool d'attention partagé basé sur tous ces vecteurs.

La sortie de la première moitié du décodeur est un vecteur de texte et un vecteur de jeton CLS à la fin de la séquence, tokenisés à l'aide de sentencepece (vocabulaire 64K). Les vecteurs de texte et d'image sont fusionnés dans la seconde moitié du décodeur via une attention croisée.

Les poids des deux pertes sont :

La similarité entre le vecteur attention pool de l'image et le vecteur tag CLS du texte de la description de l'image paire.

Perte autorégressive de toute la sortie du décodeur (conditionnée à l'image).

    Pendant le processus de réglage fin, l'encodeur d'image peut être gelé et seul le pool d'attention peut être affiné.
  • 2. PaLM-E Google / 2023

    L'image est codée par ViT, le vecteur de sortie ainsi que les jetons de texte et les commandes sont introduits dans PaLM, et PaLM génère le texte de sortie.

    PaLM-E est utilisé pour toutes les tâches, y compris le VQA, la détection d'objets et le fonctionnement du robot.

    3. GPT-4 OpenAI/2023

    Il s'agit d'un modèle fermé avec peu de détails connus. Vraisemblablement, il dispose d’un décodeur avec peu d’attention et d’entrées multimodales. Il utilise un entraînement autorégressif et un réglage fin du RLHF avec des longueurs de séquence de 8K à 32K.

    Il a été testé lors d'examens humains avec zéro et quelques échantillons et a atteint des niveaux semblables à ceux des humains. Il peut résoudre instantanément et étape par étape des problèmes basés sur des images (y compris des problèmes mathématiques), comprendre et interpréter des images, et analyser et générer du code. Convient également à différentes langues, y compris les langues minoritaires.

    Résumé

    Ce qui suit est une brève conclusion. Ils peuvent être incomplets ou simplement incorrects et sont fournis à titre indicatif uniquement.

    Après que les cartes graphiques automatiques ne peuvent plus être exploitées, divers modèles à grande échelle ont envahi et la base des modèles s'est élargie, mais la simple augmentation des couches et la croissance des ensembles de données ont été remplacées par diverses technologies meilleures qui permettent améliorations de la qualité (utilisation de données et d'outils externes, structures de réseau améliorées et nouvelles techniques de réglage fin). Mais un nombre croissant de travaux montrent que la qualité des données de formation est plus importante que la quantité : une sélection et une formation correctes des ensembles de données peuvent réduire le temps de formation et améliorer la qualité des résultats.

    OpenAI devient désormais fermé, ils ont essayé de ne pas publier les poids de GPT-2 mais ont échoué. Mais GPT4 est une boîte noire. La tendance des derniers mois à améliorer et à optimiser le coût de réglage fin et la vitesse d'inférence des modèles open source a largement réduit la valeur des grands modèles privés, car les produits open source rattrapent également rapidement le retard. des géants en qualité , ce qui permet à nouveau de dépasser dans les virages.

    Le résumé des modèles open source finaux est le suivant :

    • Parmi les blocs modèles d'encodeurs, les modèles XLM-RoBERTa et LaBSE sont considérés comme des solutions multilingues fiables
    • Parmi les modèles génératifs ouverts, les plus intéressants ; sont LLaMA et les modèles d'EleutherAI (tous ont leurs versions affinées), Dolly-2, BLOOM (ont également des options de réglage fin des commandes
    • En termes de code, les modèles de SantaCoder ne sont pas mauvais, mais dans l'ensemble la qualité est évidemment) ; derrière ChatGPT/GPT -4 ;
    • Transformer-XL et Sparse Transformer implémentent des technologies utilisées dans d'autres modèles et peuvent être étudiées attentivement

    Ce qui précède est à titre de référence uniquement ;

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Bytedance Cutting lance le super abonnement SVIP : 499 yuans pour un abonnement annuel continu, offrant une variété de fonctions d'IA Bytedance Cutting lance le super abonnement SVIP : 499 yuans pour un abonnement annuel continu, offrant une variété de fonctions d'IA Jun 28, 2024 am 03:51 AM

Ce site a rapporté le 27 juin que Jianying est un logiciel de montage vidéo développé par FaceMeng Technology, une filiale de ByteDance. Il s'appuie sur la plateforme Douyin et produit essentiellement du contenu vidéo court pour les utilisateurs de la plateforme. Il est compatible avec iOS, Android et. Windows, MacOS et autres systèmes d'exploitation. Jianying a officiellement annoncé la mise à niveau de son système d'adhésion et a lancé un nouveau SVIP, qui comprend une variété de technologies noires d'IA, telles que la traduction intelligente, la mise en évidence intelligente, l'emballage intelligent, la synthèse humaine numérique, etc. En termes de prix, les frais mensuels pour le clipping SVIP sont de 79 yuans, les frais annuels sont de 599 yuans (attention sur ce site : équivalent à 49,9 yuans par mois), l'abonnement mensuel continu est de 59 yuans par mois et l'abonnement annuel continu est de 59 yuans par mois. est de 499 yuans par an (équivalent à 41,6 yuans par mois) . En outre, le responsable de Cut a également déclaré que afin d'améliorer l'expérience utilisateur, ceux qui se sont abonnés au VIP d'origine

Assistant de codage d'IA augmenté par le contexte utilisant Rag et Sem-Rag Assistant de codage d'IA augmenté par le contexte utilisant Rag et Sem-Rag Jun 10, 2024 am 11:08 AM

Améliorez la productivité, l’efficacité et la précision des développeurs en intégrant une génération et une mémoire sémantique améliorées par la récupération dans les assistants de codage IA. Traduit de EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, auteur JanakiramMSV. Bien que les assistants de programmation d'IA de base soient naturellement utiles, ils ne parviennent souvent pas à fournir les suggestions de code les plus pertinentes et les plus correctes, car ils s'appuient sur une compréhension générale du langage logiciel et des modèles d'écriture de logiciels les plus courants. Le code généré par ces assistants de codage est adapté à la résolution des problèmes qu’ils sont chargés de résoudre, mais n’est souvent pas conforme aux normes, conventions et styles de codage des équipes individuelles. Cela aboutit souvent à des suggestions qui doivent être modifiées ou affinées pour que le code soit accepté dans l'application.

Le réglage fin peut-il vraiment permettre au LLM d'apprendre de nouvelles choses : l'introduction de nouvelles connaissances peut amener le modèle à produire davantage d'hallucinations Le réglage fin peut-il vraiment permettre au LLM d'apprendre de nouvelles choses : l'introduction de nouvelles connaissances peut amener le modèle à produire davantage d'hallucinations Jun 11, 2024 pm 03:57 PM

Les grands modèles linguistiques (LLM) sont formés sur d'énormes bases de données textuelles, où ils acquièrent de grandes quantités de connaissances du monde réel. Ces connaissances sont intégrées à leurs paramètres et peuvent ensuite être utilisées en cas de besoin. La connaissance de ces modèles est « réifiée » en fin de formation. À la fin de la pré-formation, le modèle arrête effectivement d’apprendre. Alignez ou affinez le modèle pour apprendre à exploiter ces connaissances et répondre plus naturellement aux questions des utilisateurs. Mais parfois, la connaissance du modèle ne suffit pas, et bien que le modèle puisse accéder à du contenu externe via RAG, il est considéré comme bénéfique de l'adapter à de nouveaux domaines grâce à un réglage fin. Ce réglage fin est effectué à l'aide de la contribution d'annotateurs humains ou d'autres créations LLM, où le modèle rencontre des connaissances supplémentaires du monde réel et les intègre.

Sept questions d'entretien technique Cool GenAI et LLM Sept questions d'entretien technique Cool GenAI et LLM Jun 07, 2024 am 10:06 AM

Pour en savoir plus sur l'AIGC, veuillez visiter : 51CTOAI.x Community https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou est différent de la banque de questions traditionnelle que l'on peut voir partout sur Internet. nécessite de sortir des sentiers battus. Les grands modèles linguistiques (LLM) sont de plus en plus importants dans les domaines de la science des données, de l'intelligence artificielle générative (GenAI) et de l'intelligence artificielle. Ces algorithmes complexes améliorent les compétences humaines et stimulent l’efficacité et l’innovation dans de nombreux secteurs, devenant ainsi la clé permettant aux entreprises de rester compétitives. LLM a un large éventail d'applications. Il peut être utilisé dans des domaines tels que le traitement du langage naturel, la génération de texte, la reconnaissance vocale et les systèmes de recommandation. En apprenant de grandes quantités de données, LLM est capable de générer du texte

Cinq écoles d'apprentissage automatique que vous ne connaissez pas Cinq écoles d'apprentissage automatique que vous ne connaissez pas Jun 05, 2024 pm 08:51 PM

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Afin de fournir un nouveau système de référence et d'évaluation de questions-réponses scientifiques et complexes pour les grands modèles, l'UNSW, Argonne, l'Université de Chicago et d'autres institutions ont lancé conjointement le cadre SciQAG. Jul 25, 2024 am 06:42 AM

L'ensemble de données ScienceAI Question Answering (QA) joue un rôle essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

SK Hynix présentera de nouveaux produits liés à l'IA le 6 août : HBM3E à 12 couches, NAND à 321 hauteurs, etc. SK Hynix présentera de nouveaux produits liés à l'IA le 6 août : HBM3E à 12 couches, NAND à 321 hauteurs, etc. Aug 01, 2024 pm 09:40 PM

Selon les informations de ce site le 1er août, SK Hynix a publié un article de blog aujourd'hui (1er août), annonçant sa participation au Global Semiconductor Memory Summit FMS2024 qui se tiendra à Santa Clara, Californie, États-Unis, du 6 au 8 août, présentant de nombreuses nouvelles technologies de produit. Introduction au Future Memory and Storage Summit (FutureMemoryandStorage), anciennement Flash Memory Summit (FlashMemorySummit) principalement destiné aux fournisseurs de NAND, dans le contexte de l'attention croissante portée à la technologie de l'intelligence artificielle, cette année a été rebaptisée Future Memory and Storage Summit (FutureMemoryandStorage) pour invitez les fournisseurs de DRAM et de stockage et bien d’autres joueurs. Nouveau produit SK hynix lancé l'année dernière

Les performances de SOTA, la méthode d'IA de prédiction d'affinité protéine-ligand multimodale de Xiamen, combinent pour la première fois des informations sur la surface moléculaire Les performances de SOTA, la méthode d'IA de prédiction d'affinité protéine-ligand multimodale de Xiamen, combinent pour la première fois des informations sur la surface moléculaire Jul 17, 2024 pm 06:37 PM

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le rôle important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S

See all articles