communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > Périphériques technologiques > IA > L'article pionnier de Transformer est choquant ? L'image n'est pas cohérente avec le code et le bug mystérieux me rend stupide

L'article pionnier de Transformer est choquant ? L'image n'est pas cohérente avec le code et le bug mystérieux me rend stupide

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2023-05-11 12:46:13

avant

1494 Les gens l'ont consulté

Aujourd'hui, le cercle de l'IA a été choqué par un "renversement" choquant.

Le diagramme dans "Attention Is All Your Need", le travail de base de la PNL de Google Brain et à l'origine de l'architecture Transformer, a été retiré par les internautes et fusionné avec le code .Incohérent.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Adresse papier : https://arxiv.org /abs/1706.03762

Depuis son lancement en 2017, Transformer est devenu la pierre angulaire du domaine de l'IA. Même le véritable cerveau derrière le populaire ChatGPT, c'est lui.

En 2019, Google a également déposé un brevet spécifiquement pour celui-ci.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

remonte à l'origine, et maintenant divers GPT (Generative Pre- Transformateur formé), tous proviennent de ce journal vieux de 17 ans.

Selon Google Scholar, jusqu'à présent, cet ouvrage fondateur a été cité plus de 70 000 fois.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Donc, la première pierre de ChatGPT n'est pas stable ?

En tant qu'« auteur » du document, le schéma de structure est en fait faux ?

Sebastian Raschka, fondateur de Lightning AI et chercheur en apprentissage automatique, a découvert que le diagramme du transformateur dans cet article est erroné.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

L'endroit encerclé dans l'image, LayerNorms est après l'attention et le calque entièrement connecté. Placer la normalisation des couches entre les blocs résiduels entraîne des gradients attendus importants pour les paramètres proches de la couche de sortie.

De plus, cela n'est pas cohérent avec le code.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

# 🎜 🎜#

Adresse du code : https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f147 b884748f08197c9cf1b10a4dd78e

# 🎜 🎜# Cependant, certains internautes ont souligné que Noam Shazeer avait corrigé le code quelques semaines plus tard.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Plus tard, Sebastian a dit que dans l'article Normalisation des couches dans l'architecture du transformateur , Pre-LN fonctionne mieux et peut résoudre le problème du gradient.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

C'est ce que beaucoup ou la plupart des architectures adoptent dans la pratique, mais cela peut conduire à une rupture de la représentation.

Si la normalisation des calques est placée dans la connexion résiduelle avant l'attention et les calques entièrement connectés, de meilleurs dégradés seront obtenus.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Sebastian a proposé que même si la discussion sur l'utilisation du Post-LN ou du Pre-LN est toujours en cours, il existe également un nouveau document proposant de combiner les deux.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Adresse papier : https://arxiv.org/abs/2304.14802

Dans ce double Transformer résiduel, les problèmes d'effondrement de la représentation et de disparition du gradient sont résolus.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Discussion chaude des internautes

En réponse à le journal Concernant les doutes, certains internautes ont souligné : n'y a-t-il pas déjà PreLN et PostLN au milieu ?

Sebastian a répondu qu'il se sentait un peu étrange aussi. Peut-être que le 2ème LN fait référence à la dernière couche de sortie plutôt qu'à chaque bloc de transformateur, mais il n'en est pas sûr non plus.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Certains internautes ont déclaré : « Nous rencontrons souvent des incohérences avec le code ou les résultats. Les documents correspondants sont pour la plupart des erreurs, mais il est parfois étrange que ce document circule depuis longtemps. C'est vraiment étrange que ce genre de question n'ait jamais été soulevé auparavant. #

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Sebastian a dit que pour être honnête, le code original est conforme à l'image Oui, mais ils ont modifié la version du code en 2017 mais je n'ai pas mis à jour la photo. Donc, c'est déroutant.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Certains internautes ont dit qu'il existe déjà des articles montrant une méthode différente dans NormFormer . une architecture trop complexe, et son équipe a récemment confirmé ses résultats. Le document ResiDual ne mentionne NormFormer nulle part, ce qui est surprenant.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

Dans le même temps, les internautes ont continué à apparaître dans la zone de commentaires pour confirmer : LN utilisé dans Transformers , qui est différent de la méthode utilisée dans CNN.

Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide

# 🎜 🎜# Larticle pionnier de Transformer est choquant ? Limage nest pas cohérente avec le code et le bug mystérieux me rend stupide Alors, y a-t-il vraiment une faille dans le journal, ou est-ce un propre incident ?

Attendons de voir ce qui se passera ensuite.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées：

开源代码

source：51cto.com

Article précédent：Il a été révélé qu'Amazon développait secrètement un nouveau robot domestique doté de fonctions similaires à ChatGPT Article suivant：Former le modèle YOLOv7 et développer la détection d'incendie par IA

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Qu'est-ce qu'une NullPointerException et comment y remédier ?

2024-10-22 09:46:29
De novice à codeur : votre voyage commence par les principes fondamentaux du C

2024-10-13 13:53:41
Débloquer le développement Web avec PHP : guide du débutant

2024-10-12 12:15:51
Démystifier C : un chemin clair et simple pour les nouveaux programmeurs

2024-10-11 22:47:31
Libérez votre potentiel de codage : programmation C pour les débutants absolus

2024-10-11 19:36:51
Libérez votre programmeur intérieur : C pour les débutants absolus

2024-10-11 15:50:41
Automatisez votre vie avec C : scripts et outils pour les débutants

2024-10-11 15:07:41
PHP Made Easy : vos premiers pas dans le développement Web

2024-10-11 14:21:21
Construisez n'importe quoi avec Python : un guide du débutant pour libérer votre créativité

2024-10-11 12:59:11
La clé du codage : libérer la puissance de Python pour les débutants

2024-10-11 12:17:31

Derniers numéros

objective-c - iOS Comment rendre le texte opaque lors de la définition de la transparence d'arrière-plan de UIlabel

Depuis 1970-01-01 08:00:00

0

0

0

objective-c - Ouvrez l'album système et prenez des photos sur l'iPad iOS en orientation paysage

Depuis 1970-01-01 08:00:00

0

0

0

angulaire.js - exception au mécanisme de liaison bidirectionnelle angulaire

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment afficher les images obtenues en arrière-plan sur la page

Depuis 1970-01-01 08:00:00

0

0

0

angulaire.js - Problème de mise à jour de la valeur visible dans Angularjs

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal