Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine

WBOY
Freigeben: 2023-09-17 18:09:03
nach vorne
639 Leute haben es durchsucht

Transformer ist eine Support Vector Machine (SVM), eine neue Theorie, die Diskussionen in der akademischen Gemeinschaft ausgelöst hat.

Letztes Wochenende wurde in einem Artikel der University of Pennsylvania und der University of California, Riverside versucht, die Prinzipien der Transformer-Struktur anhand großer Modelle, ihrer optimierten Geometrie in der Aufmerksamkeitsschicht und der Trennung optimaler Eingabe-Tokens zu untersuchen Es wird eine formale Äquivalenz zwischen den hart begrenzten SVM-Problemen hergestellt.

Der Autor erklärte auf Hackernews, dass diese Theorie das Problem löst, dass SVM in jeder Eingabesequenz „gute“ Token von „schlechten“ Token trennt. Als Token-Selektor mit hervorragender Leistung unterscheidet sich diese SVM wesentlich von der herkömmlichen SVM, die der Eingabe 0-1 Labels zuweist.

Diese Theorie erklärt auch, wie Aufmerksamkeit durch Softmax zu Sparsity führt: „schlechte“ Token, die auf der falschen Seite der SVM-Entscheidungsgrenze liegen, werden von der Softmax-Funktion unterdrückt, während „gute“ Token diejenigen sind, die am Ende nicht- Null-Softmax-Wahrscheinlichkeitstoken. Erwähnenswert ist auch, dass diese SVM von den exponentiellen Eigenschaften von Softmax abgeleitet ist.

Nachdem das Papier auf arXiv hochgeladen wurde, äußerten die Leute nacheinander ihre Meinung. Einige Leute sagten: Die Richtung der KI-Forschung dreht sich wirklich, wird sie wieder zurückgehen?

Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine

Nachdem sich der Kreis geschlossen hat, sind Support-Vektor-Maschinen immer noch nicht veraltet.

Seit der Veröffentlichung des Klassikers „Attention is All You Need“ hat die Transformer-Architektur revolutionäre Fortschritte auf dem Gebiet der Verarbeitung natürlicher Sprache (NLP) gebracht. Die Aufmerksamkeitsschicht in Transformer akzeptiert eine Reihe von Eingabe-Tokens Hören Sie mir zu, Transformer ist eine Support-Vektor-MaschineJetzt stellt ein neues Papier mit dem Titel „Transformers as Support Vector Machines“ eine formale Äquivalenz zwischen der Optimierungsgeometrie der Selbstaufmerksamkeit und dem Hard-Margin-SVM-Problem her, indem das lineare äußere Produkt von Token-Paaren mit Einschränkungen optimale Eingabe-Token trennt von nicht optimalen Token.

Hören Sie mir zu, Transformer ist eine Support-Vektor-MaschineLink zum Papier: https://arxiv.org/pdf/2308.16898.pdf

Diese formale Äquivalenz basiert auf dem Papier „Max-Margin Token Selection in Attention Mechanism“ von Davoud Ataee Tarzanagh et al. „Auf der Grundlage der Vanishing-Regularisierung, Konvergenz zu einer SVM-Lösung, die die Kernnorm der kombinierten Parameter minimiert

. Im Gegensatz dazu minimiert die Parametrisierung direkt über W das SVM-Ziel der Frobenius-Norm. Der Artikel beschreibt diese Konvergenz und betont, dass sie eher in Richtung eines lokalen Optimums als in Richtung eines globalen Optimums auftreten kann.

(2) Der Artikel demonstriert auch die lokale/globale Richtungskonvergenz des W-Parametrisierungsgradientenabstiegs unter geeigneten geometrischen Bedingungen. Wichtig ist, dass die Überparametrisierung die globale Konvergenz katalysiert, indem sie die Machbarkeit des SVM-Problems sicherstellt und eine harmlose Optimierungsumgebung ohne stationäre Punkte gewährleistet. Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine(3) Während die Theorie dieser Studie hauptsächlich auf lineare Vorhersageköpfe anwendbar ist, schlägt das Forschungsteam ein allgemeineres SVM-Äquivalent vor, das die implizite Vorspannung von 1-Schicht-Transformatoren mit nichtlinearen Köpfen/MLPs vorhersagen kann.

Im Allgemeinen sind die Ergebnisse dieser Studie auf allgemeine Datensätze anwendbar und können auf Aufmerksamkeitsebenen erweitert werden, und die praktische Gültigkeit der Studienschlussfolgerungen wurde durch gründliche numerische Experimente überprüft. Diese Studie begründet eine neue Forschungsperspektive, die mehrschichtige Transformatoren als SVM-Hierarchien betrachtet, die die besten Token trennen und auswählen.

Konkret analysiert diese Studie bei gegebener Eingabesequenz der Länge T und der Einbettungsdimension d

die Kernmodelle der Queraufmerksamkeit und Selbstaufmerksamkeit:

Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine

wobei K, Q, V jeweils trainierbare Schlüssel-, Abfrage- und Wertematrizen sind, Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine; S (・) stellt Softmax-Nichtlinearität dar, die Zeile für Zeile angewendet wird Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine. Die Studie geht davon aus, dass der erste Token von Z (bezeichnet mit z) zur Vorhersage verwendet wird. Insbesondere bei einem Trainingsdatensatz Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine, Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine, Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine verwendet diese Studie die abnehmende Verlustfunktion Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine, um Folgendes zu minimieren:

Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine

Hier h (・): Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine. ist Der Vorhersageheader enthält das Wertgewicht V. In dieser Formulierung stellt das Modell f (・) genau einen einschichtigen Transformator dar, bei dem auf die Aufmerksamkeitsschicht ein MLP folgt. Der Autor stellt die Selbstaufmerksamkeit in (2) wieder her, indem er Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine setzt, wobei x_i das erste Token der Sequenz X_i darstellt. Aufgrund der nichtlinearen Natur der Softmax-Operation stellt sie eine große Herausforderung für die Optimierung dar. Selbst wenn der Vorhersagekopf fest und linear ist, ist das Problem nicht konvex und nicht linear. In dieser Studie konzentrieren sich die Autoren auf die Optimierung der Aufmerksamkeitsgewichte (K, Q oder W) und die Bewältigung dieser Herausforderungen, um die grundlegende Äquivalenz von SVMs festzustellen.

Die Struktur des Papiers ist wie folgt: Kapitel 2 stellt das vorläufige Wissen über Selbstaufmerksamkeit und Optimierung vor. Kapitel 3 analysiert die Optimierungsgeometrie der Selbstaufmerksamkeit und zeigt, dass der Aufmerksamkeitsparameter RP zur maximalen Randlösung konvergiert; Kapitel 4 und Kapitel 5 stellen die globale bzw. lokale Gradientenabstiegsanalyse vor und zeigen, dass die Schlüsselabfragevariable W zur Lösung von (Att-SVM) konvergiert. Kapitel 6 liefert Ergebnisse zur Äquivalenz von nichtlinearen Vorhersageköpfen und verallgemeinertem SVM 6 Kapitel 7 erweitert die Theorie auf sequentielle und kausale Vorhersagen; Kapitel 8 diskutiert die entsprechende Literatur. Abschließend schließt Kapitel 9 mit Vorschlägen für offene Fragen und zukünftige Forschungsrichtungen ab.

Der Hauptinhalt des Artikels lautet wie folgt:

Implizite Voreingenommenheit in der Aufmerksamkeitsschicht (Kapitel 2-3)

Optimierung der Aufmerksamkeitsparameter (K, Q), wenn die Regularisierung verschwindet, It konvergiert zur maximalen Randlösung von Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine in der Richtung, und sein nukleares Normziel ist der Kombinationsparameter Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine. Im Fall der direkten Parametrisierung der Queraufmerksamkeit mit dem kombinierten Parameter W konvergiert der Regularisierungspfad (RP) direktional zur (Att-SVM)-Lösung, die auf die Frobenius-Norm abzielt.

Dies ist das erste Ergebnis, das die parametrische Optimierungsdynamik von W und (K, Q) formal unterscheidet und Verzerrungen niedriger Ordnung in letzterer aufdeckt. Die Theorie dieser Studie beschreibt klar die Optimalität ausgewählter Token und erstreckt sich natürlich auf Sequenz-zu-Sequenz- oder kausale Klassifizierungseinstellungen.

Konvergenz des Gradientenabstiegs (Kapitel 4-5)

Bei entsprechender Initialisierung und linearem Kopf h (・) konvergieren Gradientenabstiegsiterationen (GD) der kombinierten Schlüssel-Abfragevariablen W in der Richtung zu die lokal optimale Lösung von (Att-SVM) (Abschnitt 5). Um ein lokales Optimum zu erreichen, muss der ausgewählte Token eine höhere Punktzahl haben als benachbarte Token.

Die lokal optimale Richtung ist nicht unbedingt eindeutig und kann anhand der geometrischen Eigenschaften des Problems bestimmt werden [TLZO23]. Als wichtigen Beitrag identifizieren die Autoren geometrische Bedingungen, die die Konvergenz in Richtung des globalen Optimums gewährleisten (Kapitel 4). Zu diesen Bedingungen gehören:

  • Der beste Token weist einen deutlichen Unterschied in der Punktzahl auf.
  • Die anfängliche Gradientenrichtung stimmt mit dem besten Token überein.

Darüber hinaus zeigt das Papier auch, dass eine Überparametrisierung (d. h. die Dimension d ist groß und die gleichen Bedingungen gelten) durch Sicherstellung der Durchführbarkeit von (1) (Att-SVM) und (2) harmlos ist Optimierungslandschaft (d. h. es gibt keine stationären Punkte und falschen lokalen optimalen Richtungen), um die globale Konvergenz zu katalysieren (siehe Abschnitt 5.2).

Die Abbildungen 1 und 2 veranschaulichen dies.

Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine


Hören Sie mir zu, Transformer ist eine Support-Vektor-Maschine

Allgemeingültigkeit des SVM-Äquivalents (Kapitel 6)

Bei der Optimierung mit linearem h (・) Grundvoreingenommenheit zur Auswahl eines Tokens jede Sequenz (auch bekannt als harte Aufmerksamkeit). Dies spiegelt sich in (Att-SVM) wider, wo der Ausgabetoken eine konvexe Kombination der Eingabetoken ist. Im Gegensatz dazu zeigen die Autoren, dass nichtlineare Köpfe aus mehreren Token bestehen müssen, was ihre Bedeutung für die Transformatordynamik hervorhebt (Abschnitt 6.1). Basierend auf Erkenntnissen aus der Theorie schlagen die Autoren einen allgemeineren äquivalenten Ansatz für SVM vor.

Sie zeigen insbesondere, dass unsere Methode die implizite Tendenz der durch Gradientenabstieg trainierten Aufmerksamkeit in allgemeinen Fällen, die nicht von der Theorie abgedeckt werden (z. B. h (・) ist ein MLP), genau vorhersagen kann. Konkret entkoppelt unsere allgemeine Formel das Aufmerksamkeitsgewicht in zwei Teile: einen von SVM gesteuerten Richtungsteil, der Marker durch Anwenden einer 0-1-Maske auswählt, und einen endlichen Teil, der die Softmax-Wahrscheinlichkeit anpasst, die die genaue Zusammensetzung des ausgewählten Tokens bestimmt;

Ein wichtiges Merkmal dieser Erkenntnisse ist, dass sie auf beliebige Datensätze anwendbar sind (sofern SVM machbar ist) und numerisch verifiziert werden können. Die Autoren haben die maximale Randäquivalenz und die implizite Vorspannung des Transformators ausführlich experimentell überprüft. Die Autoren glauben, dass diese Ergebnisse zum Verständnis von Transformatoren als hierarchischem Token-Auswahlmechanismus mit maximaler Marge beitragen und den Grundstein für kommende Forschungen zu ihrer Optimierungs- und Generalisierungsdynamik legen können.

Das obige ist der detaillierte Inhalt vonHören Sie mir zu, Transformer ist eine Support-Vektor-Maschine. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!