Aujourd'hui, le cercle de l'IA a été choqué par un "renversement" choquant.
Le diagramme dans "Attention Is All Your Need", le travail de base de la PNL de Google Brain et à l'origine de l'architecture Transformer, a été retiré par les internautes et fusionné avec le code .Incohérent.
Adresse papier : https://arxiv.org /abs/1706.03762
Depuis son lancement en 2017, Transformer est devenu la pierre angulaire du domaine de l'IA. Même le véritable cerveau derrière le populaire ChatGPT, c'est lui.
En 2019, Google a également déposé un brevet spécifiquement pour celui-ci.
remonte à l'origine, et maintenant divers GPT (Generative Pre- Transformateur formé), tous proviennent de ce journal vieux de 17 ans.
Selon Google Scholar, jusqu'à présent, cet ouvrage fondateur a été cité plus de 70 000 fois.
Donc, la première pierre de ChatGPT n'est pas stable ?
Sebastian Raschka, fondateur de Lightning AI et chercheur en apprentissage automatique, a découvert que le diagramme du transformateur dans cet article est erroné.
L'endroit encerclé dans l'image, LayerNorms est après l'attention et le calque entièrement connecté. Placer la normalisation des couches entre les blocs résiduels entraîne des gradients attendus importants pour les paramètres proches de la couche de sortie.
De plus, cela n'est pas cohérent avec le code.
# 🎜 🎜#Adresse du code : https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f147 b884748f08197c9cf1b10a4dd78e
# 🎜 🎜# Cependant, certains internautes ont souligné que Noam Shazeer avait corrigé le code quelques semaines plus tard.Plus tard, Sebastian a dit que dans l'article Normalisation des couches dans l'architecture du transformateur , Pre-LN fonctionne mieux et peut résoudre le problème du gradient.
C'est ce que beaucoup ou la plupart des architectures adoptent dans la pratique, mais cela peut conduire à une rupture de la représentation.
Si la normalisation des calques est placée dans la connexion résiduelle avant l'attention et les calques entièrement connectés, de meilleurs dégradés seront obtenus.
Sebastian a proposé que même si la discussion sur l'utilisation du Post-LN ou du Pre-LN est toujours en cours, il existe également un nouveau document proposant de combiner les deux.
Adresse papier : https://arxiv.org/abs/2304.14802
Dans ce double Transformer résiduel, les problèmes d'effondrement de la représentation et de disparition du gradient sont résolus.
En réponse à le journal Concernant les doutes, certains internautes ont souligné : n'y a-t-il pas déjà PreLN et PostLN au milieu ?
Sebastian a répondu qu'il se sentait un peu étrange aussi. Peut-être que le 2ème LN fait référence à la dernière couche de sortie plutôt qu'à chaque bloc de transformateur, mais il n'en est pas sûr non plus.
Certains internautes ont déclaré : « Nous rencontrons souvent des incohérences avec le code ou les résultats. Les documents correspondants sont pour la plupart des erreurs, mais il est parfois étrange que ce document circule depuis longtemps. C'est vraiment étrange que ce genre de question n'ait jamais été soulevé auparavant. #
Sebastian a dit que pour être honnête, le code original est conforme à l'image Oui, mais ils ont modifié la version du code en 2017 mais je n'ai pas mis à jour la photo. Donc, c'est déroutant.Certains internautes ont dit qu'il existe déjà des articles montrant une méthode différente dans NormFormer . une architecture trop complexe, et son équipe a récemment confirmé ses résultats. Le document ResiDual ne mentionne NormFormer nulle part, ce qui est surprenant.
Dans le même temps, les internautes ont continué à apparaître dans la zone de commentaires pour confirmer : LN utilisé dans Transformers , qui est différent de la méthode utilisée dans CNN.
# 🎜 🎜#Alors, y a-t-il vraiment une faille dans le journal, ou est-ce un propre incident ?
Attendons de voir ce qui se passera ensuite.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!