Table des matières
1. Utilisez des réseaux de neurones pour traiter les données de séquence
2. Marquage et intégration
3. Couche d'attention
4. Entraînement du Transformer
5. Changements dans Transformer
Maison Périphériques technologiques IA Qu'est-ce que le modèle d'apprentissage automatique Transformer ?

Qu'est-ce que le modèle d'apprentissage automatique Transformer ?

Apr 08, 2023 pm 06:31 PM
机器学习 模型 codex

Traducteur | Li Rui

Critique | Sun Shujuan

​Ces dernières années, le modèle d'apprentissage automatique Transformer est devenu l'un des principaux points forts de l'avancement de la technologie de l'apprentissage profond et des réseaux neuronaux profonds. Il est principalement utilisé pour des applications avancées dans le traitement du langage naturel. Google l'utilise pour améliorer les résultats de ses moteurs de recherche. OpenAI a utilisé Transformer pour créer les célèbres modèles GPT-2 et GPT-3.

Quest-ce que le modèle dapprentissage automatique Transformer ?

Depuis ses débuts en 2017, l'architecture Transformer a continué d'évoluer et de s'étendre dans de nombreuses variantes différentes, s'étendant des tâches linguistiques à d'autres domaines. Ils ont été utilisés pour la prévision de séries chronologiques. Ils constituent l’innovation clé derrière AlphaFold, le modèle de prédiction de la structure des protéines de DeepMind. Le modèle de génération de code source d'OpenAI, Codex, est également basé sur Transformer. Les transformateurs sont également récemment entrés dans le domaine de la vision par ordinateur, où ils remplacent lentement les réseaux de neurones convolutifs (CNN) dans de nombreuses tâches complexes.

Les chercheurs explorent toujours des moyens d'améliorer Transformer et de l'utiliser pour de nouvelles applications. Voici une explication rapide de ce qui rend les Transformers passionnants et de leur fonctionnement.

1. Utilisez des réseaux de neurones pour traiter les données de séquence

Quest-ce que le modèle dapprentissage automatique Transformer ?

Les réseaux de neurones à rétroaction traditionnels ne sont pas conçus pour suivre les données de séquence et mapper chaque entrée à une sortie. Cela fonctionne bien pour des tâches telles que la classification d'images, mais échoue sur les données de séquence comme le texte. Les modèles d’apprentissage automatique qui traitent le texte doivent non seulement traiter chaque mot, mais également prendre en compte la manière dont les mots sont disposés dans l’ordre et liés les uns aux autres. Et le sens d’un mot peut changer en fonction des autres mots qui apparaissent avant et après lui dans la phrase.

Avant l'avènement de Transformer, les réseaux de neurones récurrents (RNN) étaient la solution privilégiée pour le traitement du langage naturel. Lorsqu'on lui donne une séquence de mots, un réseau neuronal récurrent (RNN) traitera le premier mot et renverra les résultats à la couche qui traite le mot suivant. Cela lui permet de suivre une phrase entière plutôt que de traiter chaque mot individuellement.

Les défauts des réseaux de neurones récurrents (RNN) limitent leur utilité. Premièrement, leur traitement est très lent. Parce qu’ils doivent traiter les données de manière séquentielle, ils ne peuvent pas tirer parti du matériel informatique parallèle et des unités de traitement graphique (GPU) pour la formation et l’inférence. Deuxièmement, ils ne peuvent pas gérer de longues séquences de texte. À mesure que le réseau neuronal récurrent (RNN) pénètre plus profondément dans l’extrait de texte, l’effet des premiers mots de la phrase diminue progressivement. Ce problème connu sous le nom de « gradient de disparition » se produit lorsque deux mots liés sont très éloignés l'un de l'autre dans le texte. Troisièmement, ils capturent uniquement la relation entre un mot et les mots qui le précèdent. En fait, le sens des mots dépend des mots qui les précèdent et qui les suivent.

Le réseau LSTM (Long Short-Term Memory) est le successeur du réseau neuronal récurrent (RNN), qui peut résoudre dans une certaine mesure le problème du gradient de disparition et gérer des séquences de texte plus grandes. Mais la mémoire à long terme (LSTM) est encore plus lente à former que les réseaux de neurones récurrents (RNN) et ne peut toujours pas tirer pleinement parti du calcul parallèle. Ils s'appuient toujours sur le traitement en série de séquences de texte.

Un article publié en 2017 intitulé "L'attention est tout ce qui est nécessaire" a présenté Transformer, déclarant que Transformer
a apporté deux contributions clés : Premièrement, ils ont permis de traiter des séquences entières en parallèle, permettant ainsi de convertir la vitesse et la vitesse séquentielles. la capacité des modèles d’apprentissage profond évolue à des rythmes sans précédent. Deuxièmement, ils introduisent des « mécanismes d'attention » qui peuvent suivre les relations entre les mots dans de très longues séquences de texte, à la fois vers l'avant et vers l'arrière.

Quest-ce que le modèle dapprentissage automatique Transformer ?

Avant de discuter du fonctionnement du modèle Transformer, il est nécessaire de discuter des types de problèmes que les réseaux de neurones séquentiels résolvent.

  • Les modèles vecteur-séquence prennent une seule entrée (par exemple une image) et génèrent une séquence de données (par exemple une description).
  • Les modèles « Séquence-vers-vecteur » prennent des données de séquence en entrée, telles que des critiques de produits ou des publications sur les réseaux sociaux, et génèrent une valeur unique, telle qu'un score de sentiment.
  • Un modèle « séquence à séquence » prend en entrée une séquence, telle qu'une phrase anglaise, et génère une autre séquence, telle que la traduction française de cette phrase.

Malgré leurs différences, tous ces types de modèles ont une chose en commun : ils apprennent les expressions. Le travail d'un réseau de neurones est de convertir un type de données en un autre type de données. Pendant l'entraînement, la couche cachée du réseau neuronal (la couche entre l'entrée et la sortie) ajuste ses paramètres de manière à représenter au mieux les caractéristiques du type de données d'entrée et les mappe à la sortie. Le Transformer original a été conçu comme un modèle séquence à séquence (seq2seq) pour la traduction automatique (bien entendu, les modèles séquence à séquence ne se limitent pas aux tâches de traduction). Il se compose d'un module d'encodeur qui compresse la chaîne d'entrée de la langue source en un vecteur qui représente les mots et leurs relations les uns avec les autres. Le module décodeur convertit le vecteur codé en une chaîne de texte dans la langue cible.

2. Marquage et intégration

Quest-ce que le modèle dapprentissage automatique Transformer ?

Le texte saisi doit être traité et converti dans un format unifié avant de pouvoir être saisi dans Transformer. Tout d'abord, le texte passe par un « tokenizer », qui le divise en morceaux de caractères pouvant être traités individuellement. L'algorithme de tokenisation peut dépendre de l'application. Dans la plupart des cas, chaque mot et signe de ponctuation compte à peu près comme un jeton. Certains suffixes et préfixes comptent comme des jetons distincts (par exemple, « ize », « ly » et « pre »). Le tokenizer génère une liste de nombres représentant les ID de jeton du texte saisi.

Les jetons sont ensuite convertis en « intégrations de mots ». L'intégration de mots est un vecteur qui tente de capturer la valeur d'un mot dans un espace multidimensionnel. Par exemple, les mots « chat » et « chien » peuvent avoir des valeurs similaires sur certaines dimensions car ils sont tous deux utilisés dans des phrases sur les animaux et les animaux de compagnie. Cependant, sur d'autres dimensions qui distinguent les félins des canidés, « chat » est plus proche de « lion » que de « loup ». De même, « Paris » et « Londres » sont probablement plus proches l’une de l’autre car ce sont toutes deux des villes. Cependant, « Londres » est plus proche de « l'Angleterre » et « Paris » est plus proche de « la France » en raison des dimensions différenciantes d'un pays. Et les intégrations de mots ont généralement des centaines de dimensions.

Les intégrations de mots sont créées via des modèles d'intégration qui sont formés séparément du Transformer. Il existe plusieurs modèles d'intégration pré-entraînés pour les tâches linguistiques.

3. Couche d'attention

Quest-ce que le modèle dapprentissage automatique Transformer ?

Une fois la phrase convertie en une liste d'intégrations de mots, elle est introduite dans le module d'encodage du Transformer. Contrairement aux modèles de réseau neuronal récurrent (RNN) et de mémoire à long terme (LSTM), Transformer ne reçoit pas une entrée à la fois. Il peut recevoir des valeurs d'intégration pour des phrases entières et les traiter en parallèle. Cela rend les Transformers plus efficaces sur le plan informatique que leurs prédécesseurs et leur permet également d'examiner des scénarios de texte dans des séquences avant et arrière.

Pour conserver l'ordre des mots dans la phrase, le Transformer applique un "codage positionnel", ce qui signifie essentiellement qu'il modifie la valeur de chaque vecteur d'intégration pour représenter sa position dans le texte.

Ensuite, l'entrée est transmise au premier bloc d'encodeur, qui la traite via une "couche d'attention". La couche d'attention tente de capturer les relations entre les mots dans une phrase. Par exemple, considérons la phrase « Le gros chat noir a traversé la route après avoir laissé tomber une bouteille sur le côté ». Ici, le modèle doit associer « ça » à « chat » et « son » à « bouteille ». Il faudrait donc créer d'autres associations, telles que « grand » et « chat » ou « croisé » et « chat ». Sinon, la couche d'attention reçoit une liste d'incorporations de mots représentant des valeurs de mots individuels et génère une liste de vecteurs représentant des mots individuels et leurs relations. La couche d'attention contient plusieurs « têtes d'attention », chacune pouvant capturer différents types de relations entre les mots.

La sortie de la couche d'attention est transmise à un réseau neuronal à rétroaction, qui la convertit en une représentation vectorielle et l'envoie à la couche d'attention suivante. Les transformateurs
contiennent plusieurs blocs d'attention et couches de rétroaction pour capturer progressivement des relations plus complexes.

Le module décodeur est chargé de convertir les vecteurs d'attention de l'encodeur en données de sortie (par exemple, une version traduite du texte d'entrée). Pendant la phase de formation, le décodeur a accès aux vecteurs d'attention produits par l'encodeur et aux résultats attendus (par exemple, les chaînes traduites).

Le décodeur utilise les mêmes mécanismes de tokenisation, d'intégration de mots et d'attention pour traiter les résultats attendus et créer des vecteurs d'attention. Il transmet ensuite ce vecteur d'attention et cette couche d'attention dans le module d'encodeur pour établir une relation entre les valeurs d'entrée et de sortie. Dans une application de traduction, il s'agit de la partie où les mots de la langue source et de la langue cible sont mappés les uns aux autres. Comme le module encodeur, les vecteurs d’attention du décodeur passent par des couches de rétroaction. Le résultat est ensuite mappé sur un très grand pool de vecteurs, c'est-à-dire la taille des données cibles (dans le cas d'une traduction, cela peut impliquer des dizaines de milliers de mots).

4. Entraînement du Transformer

Pendant la formation, le Transformer reçoit un très grand corpus d'exemples appariés (par exemple, des phrases en anglais et leurs traductions françaises correspondantes). Le module encodeur reçoit et traite la chaîne d'entrée complète. Cependant, le décodeur reçoit une version masquée de la chaîne de sortie (un mot à la fois) et tente d'établir une correspondance entre les vecteurs d'attention codés et les résultats attendus. L'encodeur essaie de prédire le mot suivant et effectue des corrections en fonction de la différence entre sa sortie et le résultat attendu. Ce retour permet au convertisseur de modifier les paramètres de l'encodeur et du décodeur et de créer progressivement le mappage correct entre les langages d'entrée et de sortie.

Plus un Transformer possède de données et de paramètres d'entraînement, plus il est capable de maintenir la cohérence et l'homogénéité sur des séquences de texte plus longues.

5. Changements dans Transformer

Dans l'exemple de traduction automatique étudié ci-dessus, le module encodeur de Transformer apprend la relation entre les mots et les phrases anglais, tandis que le décodeur apprend le mappage entre l'anglais et le français.

Mais toutes les applications Transformer ne nécessitent pas de modules d'encodeur et de décodeur. Par exemple, la famille GPT de grands modèles de langage utilise une pile de modules de décodage pour générer du texte. BERT est une autre variante du modèle Transformer développé par les chercheurs de Google, mais il utilise uniquement le module encodeur.

L'avantage de certaines de ces architectures est qu'elles peuvent être formées par des méthodes d'apprentissage auto-supervisées ou non supervisées. BERT, par exemple, effectue l'essentiel de sa formation en prenant un vaste corpus de texte non étiqueté, en masquant certaines parties et en essayant de prédire les parties manquantes. Il ajuste ensuite ses paramètres en fonction de la distance entre ses prédictions et les données réelles. En répétant continuellement ce processus, BERT capture la relation entre différents mots dans différentes scènes. Après cette phase de pré-formation, BERT peut être affiné pour les tâches en aval telles que la réponse aux questions, la synthèse de texte ou l'analyse des sentiments en s'entraînant sur un petit nombre d'exemples étiquetés. L’utilisation d’une pré-formation non supervisée et auto-supervisée peut réduire l’effort requis pour annoter les données de formation.

Il y a bien plus à propos des Transformers et des nouvelles applications qu'ils débloquent, ce qui dépasse le cadre de cet article. Les chercheurs cherchent toujours des moyens d’obtenir davantage d’aide de Transformer.

Transformer a également suscité des discussions sur la compréhension du langage et l'intelligence artificielle en général. Il est évident que le Transformer, comme les autres réseaux de neurones, est un modèle statistique capable de capturer les régularités des données de manière intelligente et sophistiquée. Même s’ils ne « comprennent » pas le langage comme le font les humains, leur développement reste passionnant et a bien plus à offrir.

Lien original : https://bdtechtalks.com/2022/05/02/what-is-the-transformer/

Quest-ce que le modèle dapprentissage automatique Transformer ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Jun 01, 2024 am 10:58 AM

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

IA explicable : Expliquer les modèles IA/ML complexes IA explicable : Expliquer les modèles IA/ML complexes Jun 03, 2024 pm 10:08 PM

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Jun 07, 2024 pm 12:05 PM

1. Introduction Au cours des dernières années, les YOLO sont devenus le paradigme dominant dans le domaine de la détection d'objets en temps réel en raison de leur équilibre efficace entre le coût de calcul et les performances de détection. Les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'expansion des données, etc., et ont réalisé des progrès significatifs. Dans le même temps, le recours à la suppression non maximale (NMS) pour le post-traitement entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. Dans les YOLO, la conception de divers composants manque d’une inspection complète et approfondie, ce qui entraîne une redondance informatique importante et limite les capacités du modèle. Il offre une efficacité sous-optimale et un potentiel d’amélioration des performances relativement important. Dans ce travail, l'objectif est d'améliorer encore les limites d'efficacité des performances de YOLO à la fois en post-traitement et en architecture de modèle. à cette fin

Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. Jun 01, 2024 pm 04:41 PM

Afin d'aligner les grands modèles de langage (LLM) sur les valeurs et les intentions humaines, il est essentiel d'apprendre les commentaires humains pour garantir qu'ils sont utiles, honnêtes et inoffensifs. En termes d'alignement du LLM, une méthode efficace est l'apprentissage par renforcement basé sur le retour humain (RLHF). Bien que les résultats de la méthode RLHF soient excellents, certains défis d’optimisation sont impliqués. Cela implique de former un modèle de récompense, puis d'optimiser un modèle politique pour maximiser cette récompense. Récemment, certains chercheurs ont exploré des algorithmes hors ligne plus simples, dont l’optimisation directe des préférences (DPO). DPO apprend le modèle politique directement sur la base des données de préférence en paramétrant la fonction de récompense dans RLHF, éliminant ainsi le besoin d'un modèle de récompense explicite. Cette méthode est simple et stable

Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

À la pointe de la technologie logicielle, le groupe de l'UIUC Zhang Lingming, en collaboration avec des chercheurs de l'organisation BigCode, a récemment annoncé le modèle de grand code StarCoder2-15B-Instruct. Cette réalisation innovante a permis une percée significative dans les tâches de génération de code, dépassant avec succès CodeLlama-70B-Instruct et atteignant le sommet de la liste des performances de génération de code. Le caractère unique de StarCoder2-15B-Instruct réside dans sa stratégie d'auto-alignement pur. L'ensemble du processus de formation est ouvert, transparent et complètement autonome et contrôlable. Le modèle génère des milliers d'instructions via StarCoder2-15B en réponse au réglage fin du modèle de base StarCoder-15B sans recourir à des annotations manuelles coûteuses.

L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub L'Université Tsinghua a pris le relais et YOLOv10 est sorti : les performances ont été grandement améliorées et il figurait sur la hot list de GitHub Jun 06, 2024 pm 12:20 PM

La série de référence YOLO de systèmes de détection de cibles a une fois de plus reçu une mise à niveau majeure. Depuis la sortie de YOLOv9 en février de cette année, le relais de la série YOLO (YouOnlyLookOnce) a été passé entre les mains de chercheurs de l'Université Tsinghua. Le week-end dernier, la nouvelle du lancement de YOLOv10 a attiré l'attention de la communauté IA. Il est considéré comme un cadre révolutionnaire dans le domaine de la vision par ordinateur et est connu pour ses capacités de détection d'objets de bout en bout en temps réel, poursuivant l'héritage de la série YOLO en fournissant une solution puissante alliant efficacité et précision. Adresse de l'article : https://arxiv.org/pdf/2405.14458 Adresse du projet : https://github.com/THU-MIG/yo

See all articles