Table des matières
Introduction à l'article
Maison Périphériques technologiques IA Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Apr 09, 2023 pm 08:31 PM
代码 deepmind

Transformer est né en 2017 et a été présenté par Google dans le document "L'attention est tout ce dont vous avez besoin". Cet article abandonne les CNN et RNN utilisés dans les tâches précédentes d'apprentissage en profondeur. Cette recherche révolutionnaire a renversé l’idée précédente d’assimiler la modélisation de séquences et le RNN, et est désormais largement utilisée en PNL. Les populaires GPT, BERT, etc. sont tous construits sur Transformer.

Transformer Depuis son introduction, les chercheurs ont proposé de nombreuses variantes. Mais toutes les descriptions de Transformer semblent présenter l'architecture sous forme verbale, d'explications graphiques, etc. Il existe très peu d’informations disponibles sur les descriptions de pseudocode de Transformer.

Comme l'exprime le passage suivant : Un chercheur très célèbre dans le domaine de l'IA a envoyé un jour un article qu'il trouvait très bien écrit à un célèbre théoricien de la complexité. Et la réponse du théoricien est : je ne trouve aucun théorème dans l'article, je ne sais pas de quoi parle l'article.

Pour les praticiens, les articles peuvent être suffisamment détaillés, mais les théoriciens exigent généralement plus de précision. Pour une raison quelconque, la communauté DL semble réticente à fournir un pseudocode pour ses modèles de réseaux neuronaux.

Actuellement, il semble que la communauté DL ait les problèmes suivants :

Les publications DL manquent de précision et de détails scientifiques. L’apprentissage profond a connu un grand succès au cours des 5 à 10 dernières années, avec des milliers d’articles publiés chaque année. De nombreux chercheurs ne décrivent que de manière informelle comment ils ont modifié les modèles précédents, avec des articles de plus de 100 pages ne contenant que quelques lignes de descriptions informelles de modèles. Au mieux, quelques diagrammes de haut niveau, pas de pseudocode, pas d'équations, aucune mention d'une interprétation précise du modèle. Personne ne fournit même de pseudocode pour le célèbre Transformer et ses variantes encodeurs/décodeurs.

Code source et pseudo code. Le code source open source est très utile, mais comparé aux milliers de lignes de code source réel, un pseudocode bien conçu fait généralement moins d'une page et reste essentiellement complet. Cela semblait être un travail difficile que personne ne voulait faire.

Expliquer le processus de formation est tout aussi important, mais parfois le document ne mentionne même pas quelles sont les entrées et les sorties du modèle et quels sont les effets secondaires potentiels. Les sections expérimentales des articles n’expliquent souvent pas ce qui est introduit dans l’algorithme et comment. Si la section Méthodes contient quelques explications, elle est souvent déconnectée de ce qui est décrit dans la section Expérimentale, probablement parce que différents auteurs ont écrit des sections différentes.

Certaines personnes peuvent se demander : le pseudocode est-il vraiment nécessaire ? À quoi sert le pseudocode ?

Les chercheurs de DeepMind pensent que fournir un pseudocode a de nombreuses utilisations Par rapport à la lecture d'un article ou au défilement de 1 000 lignes de code réel, le pseudocode condense tout le contenu important sur une seule page, ce qui facilite le développement de nouvelles variantes. À cette fin, ils ont récemment publié un article "Formal Algorithms for Transformers", qui décrit l'architecture du Transformer de manière complète et mathématiquement précise.

Introduction à l'article

Cet article explique ce qu'est Transformer, comment Transformer est formé, à quoi sert Transformer, les composants architecturaux clés de Transformer et un aperçu des modèles les plus célèbres.

Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Adresse papier : https://arxiv.org/pdf/2207.09238.pdf

Cependant, pour lire cet article, les lecteurs doivent se familiariser avec la terminologie de base du ML et les architectures simples de réseaux neuronaux. (comme les MLP) ). Pour les lecteurs, après avoir compris le contenu de l'article, ils auront une solide compréhension de Transformer et pourront utiliser le pseudocode pour implémenter leurs propres variantes de Transformer.

La partie principale de cet article est le chapitre 3-8, qui présente Transformer et ses tâches typiques, la tokenisation, la composition architecturale de Transformer, la formation et l'inférence de Transformer, ainsi que les applications pratiques.

Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Le pseudocode fondamentalement complet dans le document compte environ 50 lignes, tandis que le code source réel compte des milliers de lignes. Le pseudocode décrivant l'algorithme dans l'article convient aux chercheurs théoriques qui ont besoin de formules compactes, complètes et précises, aux chercheurs expérimentaux qui implémentent Transformer à partir de zéro, et est également utile pour étendre des articles ou des manuels utilisant l'algorithme formel de Transformer.

Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Exemples de pseudocode dans l'article

Pour les débutants qui connaissent la terminologie de base du ML et les architectures de réseaux neuronaux simples (telles que MLP), cet article vous aidera à maîtriser une base solide de Transformer et à utiliser modèles de pseudocode pour implémenter votre propre modèle Transformer.

Introduction à l'auteur

La première auteure de cet article est Mary Phuong, une chercheuse qui a officiellement rejoint DeepMind en mars de cette année. Elle est titulaire d'un doctorat de l'Institut autrichien des sciences et technologies, principalement engagée dans la recherche théorique sur l'apprentissage automatique.

Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Un autre auteur de l'article est Marcus Hutter, chercheur principal à DeepMind et professeur honoraire à l'Institut de recherche en informatique (RSCS) de l'Université nationale australienne (ANU).

Construit à partir de zéro, le nouvel article de DeepMind explique Transformer en détail avec un pseudocode

Marcus Hutter est engagé dans des recherches sur la théorie mathématique de l'intelligence artificielle depuis de nombreuses années. Ce domaine de recherche est basé sur plusieurs concepts mathématiques et informatiques, notamment l'apprentissage par renforcement, la théorie des probabilités, la théorie algorithmique de l'information, l'optimisation, la recherche et la théorie informatique. Son livre, General Artificial Intelligence: Sequential Decision-Making Based on Algorithmic Probability, a été publié en 2005 et est un livre très technique et mathématique.

En 2002, Marcus Hutter, avec Jürgen Schmidhuber et Shane Legg, ont proposé la théorie mathématique de l'intelligence artificielle AIXI basée sur des agents idéalisés et un apprentissage par renforcement des récompenses. En 2009, Marcus Hutter a proposé la théorie de l’apprentissage par renforcement des fonctionnalités.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment résoudre le code 28 du pilote Win7 Comment résoudre le code 28 du pilote Win7 Dec 30, 2023 pm 11:55 PM

Certains utilisateurs ont rencontré des erreurs lors de l'installation du périphérique, provoquant le code d'erreur 28. En fait, cela est principalement dû au pilote. Il nous suffit de résoudre le problème du code de pilote Win7 28. Voyons ce qu'il faut faire. . Que faire avec le code 28 du pilote Win7 : Tout d'abord, nous devons cliquer sur le menu Démarrer dans le coin inférieur gauche de l'écran. Ensuite, recherchez et cliquez sur l'option "Panneau de configuration" dans le menu contextuel. Cette option est généralement située en bas ou près du bas du menu. Après avoir cliqué, le système ouvrira automatiquement l'interface du panneau de configuration. Dans le panneau de configuration, nous pouvons effectuer divers paramètres système et opérations de gestion. C'est la première étape du niveau de nettoyage nostalgique, j'espère que cela aidera. Ensuite, nous devons continuer et entrer dans le système et

Que faire si le code d'écran bleu 0x0000001 apparaît Que faire si le code d'écran bleu 0x0000001 apparaît Feb 23, 2024 am 08:09 AM

Que faire avec le code d'écran bleu 0x0000001. L'erreur d'écran bleu est un mécanisme d'avertissement en cas de problème avec le système informatique ou le matériel. Le code 0x0000001 indique généralement une panne de matériel ou de pilote. Lorsque les utilisateurs rencontrent soudainement une erreur d’écran bleu lors de l’utilisation de leur ordinateur, ils peuvent se sentir paniqués et perdus. Heureusement, la plupart des erreurs d’écran bleu peuvent être dépannées et traitées en quelques étapes simples. Cet article présentera aux lecteurs certaines méthodes pour résoudre le code d'erreur d'écran bleu 0x0000001. Tout d'abord, lorsque nous rencontrons une erreur d'écran bleu, nous pouvons essayer de redémarrer

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

Résoudre le problème « erreur : initialiseur attendu avant le type de données » dans le code C++ Résoudre le problème « erreur : initialiseur attendu avant le type de données » dans le code C++ Aug 25, 2023 pm 01:24 PM

Résolvez le problème « erreur : initialiseur attendu avant le type de données » dans le code C++. Dans la programmation C++, nous rencontrons parfois des erreurs de compilation lors de l'écriture du code. L'une des erreurs courantes est « erreur : initialiseur attendu avant le type de données ». Cette erreur se produit généralement dans une déclaration de variable ou une définition de fonction et peut empêcher le programme de se compiler correctement ou

L'ordinateur affiche fréquemment des écrans bleus et le code est différent à chaque fois L'ordinateur affiche fréquemment des écrans bleus et le code est différent à chaque fois Jan 06, 2024 pm 10:53 PM

Le système Win10 est un très excellent système à haute intelligence. Sa puissante intelligence peut apporter la meilleure expérience utilisateur aux utilisateurs. Dans des circonstances normales, les ordinateurs du système Win10 des utilisateurs n'auront aucun problème ! Cependant, il est inévitable que divers défauts se produisent sur d'excellents ordinateurs. Récemment, des amis ont signalé que leurs systèmes Win10 rencontraient fréquemment des écrans bleus ! Aujourd'hui, l'éditeur vous proposera des solutions aux différents codes qui provoquent des écrans bleus fréquents sur les ordinateurs Windows 10. Jetons un coup d'œil. Solutions aux écrans bleus fréquents de l'ordinateur avec des codes différents à chaque fois : causes des différents codes d'erreur et suggestions de solutions 1. Cause de l'erreur 0×000000116 : Il se peut que le pilote de la carte graphique soit incompatible. Solution : Il est recommandé de remplacer le pilote d'origine du fabricant. 2,

Programme de codes à distance universels GE sur n'importe quel appareil Programme de codes à distance universels GE sur n'importe quel appareil Mar 02, 2024 pm 01:58 PM

Si vous devez programmer un appareil à distance, cet article vous aidera. Nous partagerons les meilleurs codes de télécommande universelle GE pour programmer n’importe quel appareil. Qu'est-ce qu'une télécommande GE ? GEUniversalRemote est une télécommande qui peut être utilisée pour contrôler plusieurs appareils tels que les téléviseurs intelligents, LG, Vizio, Sony, Blu-ray, DVD, DVR, Roku, AppleTV, lecteurs multimédias en streaming et plus encore. Les télécommandes GEUniversal sont disponibles en différents modèles avec différentes caractéristiques et fonctions. GEUniversalRemote peut contrôler jusqu'à quatre appareils. Les meilleurs codes de télécommande universels à programmer sur n'importe quel appareil. Les télécommandes GE sont livrées avec un ensemble de codes qui leur permettent de fonctionner avec différents appareils. vous pouvez

Résoudre l'erreur du code 0xc000007b Résoudre l'erreur du code 0xc000007b Feb 18, 2024 pm 07:34 PM

Code de terminaison 0xc000007b Lors de l'utilisation de votre ordinateur, vous rencontrez parfois divers problèmes et codes d'erreur. Parmi eux, le code de terminaison est le plus inquiétant, notamment le code de terminaison 0xc000007b. Ce code indique qu'une application ne peut pas démarrer correctement, provoquant des désagréments pour l'utilisateur. Tout d’abord, comprenons la signification du code de terminaison 0xc000007b. Ce code est un code d'erreur du système d'exploitation Windows qui se produit généralement lorsqu'une application 32 bits tente de s'exécuter sur un système d'exploitation 64 bits. Cela signifie que ça devrait

Que représente le code écran bleu 0x000000d1 ? Que représente le code écran bleu 0x000000d1 ? Feb 18, 2024 pm 01:35 PM

Que signifie le code d'écran bleu 0x000000d1 ? Ces dernières années, avec la popularisation des ordinateurs et le développement rapide d'Internet, les problèmes de stabilité et de sécurité du système d'exploitation sont devenus de plus en plus importants. Les erreurs d’écran bleu sont un problème courant, le code 0x000000d1 en fait partie. Une erreur d'écran bleu, ou « Écran bleu de la mort », est une condition qui se produit lorsqu'un ordinateur subit une panne système grave. Lorsque le système ne parvient pas à récupérer de l'erreur, le système d'exploitation Windows affiche un écran bleu avec le code d'erreur à l'écran. Ces codes d'erreur

See all articles