Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

WBOY
Freigeben: 2023-05-11 12:46:13
nach vorne
1445 Leute haben es durchsucht

Heute wurde der KI-Kreis von einem schockierenden „Umsturz“ schockiert.

Das Diagramm in „Attention Is All Your Need“, der NLP-Grundlagenarbeit von Google Brain und Urheber der Transformer-Architektur, wurde von Internetnutzern herausgenommen und mit dem Code zusammengeführt . Inkonsistent.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Papieradresse: https://arxiv.org /abs/1706.03762

Seit seiner Einführung im Jahr 2017 hat sich Transformer zum Eckpfeiler im KI-Bereich entwickelt. Sogar der wahre Mastermind hinter dem beliebten ChatGPT ist er.

Auch Google hat 2019 eigens dafür ein Patent angemeldet.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

geht auf den Ursprung zurück, und nun verschiedene GPTs (Generative Pre- gelernter Transformer), alle stammen aus dieser 17-jährigen Arbeit.

Laut Google Scholar wurde dieses grundlegende Werk bisher mehr als 70.000 Mal zitiert.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Der Grundstein von ChatGPT ist also nicht stabil?

Als „Urheber“ des Papiers ist das Strukturdiagramm tatsächlich falsch?

Sebastian Raschka, Gründer von Lightning AI und Forscher für maschinelles Lernen, hat herausgefunden, dass das Transformer-Diagramm in diesem Artikel falsch ist.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Der im Bild eingekreiste Bereich, LayerNorms, liegt hinter der Aufmerksamkeits- und vollständig verbundenen Ebene. Die Platzierung der Schichtnormalisierung zwischen Restblöcken führt zu großen erwarteten Gradienten für Parameter in der Nähe der Ausgabeschicht.

Außerdem steht dies im Widerspruch zum Code.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

# 🎜 🎜#

Codeadresse: https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f147 7bafb884748f08197c9cf1b10a4dd78e

# 🎜 🎜# Einige Internetnutzer wiesen jedoch darauf hin, dass Noam Shazeer den Code einige Wochen später korrigierte.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Später sagte Sebastian das im Artikel Layer Normalization in the Transformer Architecture , Pre-LN bietet eine bessere Leistung und kann das Gradientenproblem lösen.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Dies ist, was viele oder die meisten Architekturen in der Praxis übernehmen, aber es kann zu einem Zusammenbruch der Repräsentation führen.

Wenn die Ebenennormalisierung in der Restverbindung vor den Aufmerksamkeits- und vollständig verbundenen Ebenen platziert wird, werden bessere Farbverläufe erzielt.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Sebastian schlug vor, dass die Diskussion über die Verwendung von Post-LN oder Pre-LN zwar noch andauert, es aber auch einen neuen Artikel gibt, der vorschlägt, beide zu kombinieren.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Papieradresse: https://arxiv.org/abs/2304.14802

In diesem doppelten Resttransformator werden die Probleme des Darstellungskollapses und des Gradientenverschwindens gelöst.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Heiße Netizen-Diskussion

Als Antwort auf Die Zeitung In Bezug auf Zweifel wiesen einige Internetnutzer darauf hin: Gibt es nicht bereits PreLN und PostLN in der Mitte?

Sebastian antwortete, dass er sich auch etwas seltsam fühle. Vielleicht bezieht sich 2. LN eher auf die letzte Ausgangsschicht als auf jeden Transformatorblock, aber auch da ist er sich nicht sicher.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Einige Internetnutzer sagten: „Wir stoßen oft auf Inkonsistenzen mit dem Code oder den Ergebnissen.“ . Die meisten davon sind Fehler, aber manchmal ist es seltsam, dass diese Art von Frage noch nie aufgeworfen wurde #

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Sebastian sagte, um fair zu sein, der ursprüngliche Code stimmt mit dem Bild überein. Ja, aber sie haben die Codeversion im Jahr 2017 geändert aber das Bild wurde nicht aktualisiert. Das ist also verwirrend.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Einige Internetnutzer sagten, dass es in NormFormer bereits Artikel gibt, die eine andere Methode zeigen . Eine zu komplexe Architektur, und sein Team bestätigte kürzlich ihre Ergebnisse. Das ResiDual-Papier erwähnt NormFormer nirgends, was überraschend ist.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

Gleichzeitig tauchten weiterhin Internetnutzer im Kommentarbereich auf bestätigen: LN wird in Transformers verwendet, was sich von der in CNN verwendeten Methode unterscheidet.

Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm

# 🎜 🎜#Ist Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dummAlso, gibt es wirklich eine Lücke in dem Papier oder handelt es sich um einen eigenen Vorfall?

Lasst uns abwarten, was als nächstes passiert.

Das obige ist der detaillierte Inhalt vonIst Transformers bahnbrechendes Papier schockierend? Das Bild stimmt nicht mit dem Code überein und der mysteriöse Fehler macht mich dumm. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage