Die Transformer-Architektur hat viele Bereiche erfasst, darunter die Verarbeitung natürlicher Sprache, Computer Vision, Sprache, Multimodalität usw. Allerdings sind die experimentellen Ergebnisse derzeit sehr beeindruckend und die relevante Forschung zum Funktionsprinzip von Transformer ist noch sehr begrenzt .
Das größte Rätsel ist, warum Transformer effiziente Darstellungen aus der Dynamik des Gradiententrainings hervorbringen kann, indem er sich nur auf einen „einfachen Vorhersageverlust“ verlässt?
Kürzlich gab Dr. Tian Yuandong die neuesten Forschungsergebnisse seines Teams bekannt. Auf mathematisch strenge Weise analysierte er die SGD-Trainingsdynamik eines 1-Schicht-Transformators (eine Selbstaufmerksamkeitsschicht plus eine Decoderschicht). nächste Token-Vorhersageaufgabe.
... und enthüllt die Natur einer möglichen induktiven Verzerrung.
Unter der Annahme, dass es keine Positionskodierung und keine lange Eingabesequenz gibt und die Decoderschicht schneller lernt als die Selbstaufmerksamkeitsschicht, haben die Forscher bewiesen, dass Selbstaufmerksamkeit ein diskriminierender Scan-Algorithmus ist): Ausgehend von der einheitlichen Aufmerksamkeit konzentriert sich das Modell für die Vorhersage eines bestimmten nächsten Tokens schrittweise auf verschiedene Schlüssel-Token und schenkt denjenigen, die in mehreren Fenstern für nächste Token erscheinen, weniger Aufmerksamkeit. Gemeinsame Token
Für verschiedene Token gilt: Das Modell reduziert die Aufmerksamkeitsgewichtung schrittweise und folgt dabei der Reihenfolge von niedrigem bis hohem gleichzeitigem Auftreten zwischen Schlüssel-Tokens und Abfrage-Tokens im Trainingssatz.
Interessanterweise führt dieser Prozess nicht zu einem Winner-Take-All, sondern wird durch einen Phasenübergang, der durch die zweischichtige Lernrate gesteuert wird, verlangsamt und wird schließlich zu einer (fast) festen Token-Kombination, sowohl auf synthetischer als auch auf synthetischer Basis und reale Daten werden ebenfalls überprüft.
Dr. Tian Yuandong ist Forscher und Forschungsmanager am Meta Artificial Intelligence Research Institute und Leiter des Go AI-Projekts. Seine Forschungsrichtungen sind Deep Reinforcement Learning und seine Anwendung in Spielen sowie die theoretische Analyse von Deep-Learning-Modelle. Er erhielt seinen Bachelor- und Master-Abschluss 2005 und 2008 von der Shanghai Jiao Tong University und promovierte 2013 am Robotics Institute der Carnegie Mellon University in den Vereinigten Staaten.
Gewann die 2013 International Conference on Computer Vision (ICCV) Marr Prize Honourable Mentions (Marr Prize Honourable Mentions) und den ICML2021 Outstanding Paper Honourable Mention Award.
Nach seinem Abschluss als Ph.D. veröffentlichte er die Reihe „Five-Year Doctoral Summary“, die die Gedanken und Erfahrungen der Ph.D.-Karriere unter Aspekten wie Auswahl der Forschungsrichtung, Anhäufung von Lektüre und Zeit zusammenfasst Management, Arbeitseinstellung, Einkommen und nachhaltige Karriereentwicklung.
Enthüllung des 1-Schicht-TransformersAuf der Transformer-Architektur basierende Pre-Training-Modelle umfassen normalerweise nur sehr einfache Überwachungsaufgaben, wie das Vorhersagen des nächsten Wortes, das Ausfüllen der Lücken usw., können aber sehr umfangreich sein Darstellungen für nachgelagerte Aufgaben, was wirklich beeindruckend ist.
Obwohl frühere Arbeiten bewiesen haben, dass Transformer im Wesentlichen ein universeller Approximator ist, sind zuvor häufig verwendete Modelle für maschinelles Lernen wie kNN, Kernel-SVM, mehrschichtiges Perzeptron usw. tatsächlich universelle Approximatoren Es besteht ein großer Leistungsunterschied zwischen diesen beiden Modelltypen.
Forscher glauben, dass es wichtig ist, die Trainingsdynamik von Transformer zu verstehen, also wie sich die lernbaren Parameter im Laufe der Zeit während des Trainingsprozesses ändern.
Der Artikel verwendet zunächst eine strenge mathematische Definition, um die Trainingsdynamik von SGD eines schichtlosen Positionscodierungstransformators bei der nächsten Token-Vorhersage (ein häufig verwendetes Trainingsparadigma für Modelle der GPT-Serie) formal zu beschreiben.
Der 1-Schicht-Transformer enthält eine Softmax-Selbstaufmerksamkeitsschicht und eine Decoderschicht, die den nächsten Token vorhersagt.
Unter der Annahme, dass die Sequenz lang ist und der Decoder schneller lernt als die Selbstaufmerksamkeitsschicht, wird das dynamische Verhalten der Selbstaufmerksamkeit während des Trainings demonstriert:
1. Häufigkeit Bias
Das Modell achtet nach und nach auf diejenigen Schlüsseltoken, die in großer Zahl gleichzeitig mit dem Abfragetoken auftreten, und verringert die Aufmerksamkeit auf diejenigen Token, die weniger gleichzeitig auftreten.
2. Diskriminative Verzerrung
Das Modell schenkt den eindeutigen Token mehr Aufmerksamkeit, die nur im nächsten vorherzusagenden Token erscheinen, und verliert an Interesse an den gemeinsamen Token, die in mehreren nächsten Token erscheinen.
Diese beiden Merkmale weisen darauf hin, dass die Selbstaufmerksamkeit implizit einen diskriminierenden Scan-Algorithmus ausführt und eine induktive Tendenz aufweist, d Obwohl die Selbstaufmerksamkeitsschicht während des Trainings tendenziell dünner wird, wie die Frequenzabweichung impliziert, bricht das Modell aufgrund von Phasenübergängen in der Trainingsdynamik nicht zusammen.
Die letzte Lernphase konvergiert nicht zu einem Sattelpunkt, an dem der Gradient Null ist, sondern gelangt in einen Bereich, in dem sich die Aufmerksamkeit langsam ändert (d. h. logarithmisch über die Zeit) und Parameter eingefroren und gelernt werden.
Die Forschungsergebnisse zeigen außerdem, dass der Beginn des Phasenübergangs durch die Lernrate gesteuert wird: Eine große Lernrate erzeugt spärliche Aufmerksamkeitsmuster, während bei einer festen Selbstaufmerksamkeits-Lernrate eine große Decoder-Lernrate resultiert schnellere Phasenübergänge und intensivere Aufmerksamkeitsmuster.
Die Forscher nannten die in ihrer Arbeit entdeckte SGD-Dynamik „Scan und Snap“:
Scan-Phase:
Die Selbstaufmerksamkeit konzentriert sich auf Schlüsseltoken, die unterschiedlich sind und oft mit den nächsten Vorhersagetoken in Zusammenhang stehen erscheinen gleichzeitig; alle anderen Token verlieren die Aufmerksamkeit.Snap-Phase:
Die Aufmerksamkeit ist fast eingefroren und die Token-Kombination steht fest.
Dieses Phänomen wurde auch in einfachen realen Datenexperimenten bestätigt. Mithilfe von SGD kann die niedrigste Selbstaufmerksamkeitsschicht der auf WikiText trainierten 1-Schicht- und 3-Schicht-Transformatoren beobachtet werden stellte fest, dass die Lernrate während des gesamten Trainings konstant bleibt und die Aufmerksamkeit irgendwann während des Trainings einfriert und spärlich wird.
Das obige ist der detaillierte Inhalt vonTian Yuandongs neues Werk: Beim Öffnen der ersten Schicht der Transformer-Blackbox ist der Aufmerksamkeitsmechanismus nicht so mysteriös. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!