Verbessern Sie den Kernmechanismus von Transformer zum Fokussieren, sodass kleine Modelle doppelt so groß gemacht werden können!
Im ICML+2024-Highscore-Papier hat das Caiyun Technology-Team das DCFormer-Framework als Ersatz für das Transformer-Kernkomponenten-Aufmerksamkeitsmodul (MHA) entwickelt und die dynamisch kombinierbare Multi-Head-Aufmerksamkeit (DCMHA) vorgeschlagen.
DCMHA entfernt die feste Bindung der Suchauswahlschleife und der Transformationsschleife des MHA-Aufmerksamkeitskopfes, sodass sie basierend auf der Eingabe dynamisch kombiniert werden können, was die Ausdrucksfähigkeit des Modells grundlegend verbessert.
Die ursprüngliche Bedeutung besteht darin, dass jede Schicht feste H-Aufmerksamkeitsköpfe hat. Jetzt kann sie im Grunde so verstanden werden, dass jede Schicht fast die gleiche Menge an Parametern und Rechenleistung hat HxH Aufmerksamkeitsköpfe. Der fein abgestimmte Inhalt kann die Bedeutung des Originaltextes wie folgt klarer zum Ausdruck bringen: Jede Schicht des Originalmodells enthält eine feste Anzahl von H-Aufmerksamkeitsköpfen. Jetzt können wir
DCMHA Plug-and-Play verwenden, um MHA in jeder Transformer-Architektur zu ersetzen, um einen neuen Architektur-DCFormer zu erhalten, der vielseitig, effizient und skalierbar ist.
Diese Arbeit wurde gemeinsam von Forschern der Universität für Post und Telekommunikation Peking und dem KI-Startup Caiyun Technology durchgeführt.
Das von den Forschern auf Basis von DCFormer erstellte Modell DCPythia-6.9B ist hinsichtlich der Verwirrung vor dem Training und der nachgelagerten Aufgabenbewertung besser als das Open-Source-Modell Pythia-12B.
Das DCFormer-Modell ist in seiner Leistung mit den Transformer-Modellen vergleichbar, die 1,7-2 Mal mehr Berechnungen erfordern.
Das Skalierungsgesetz großer Modelle besagt, dass das Modell mit zunehmender Rechenleistung größer wird und über mehr Daten verfügt und der Modelleffekt immer besser wird. Obwohl niemand eindeutig erklären kann, wie hoch die Obergrenze dieser Straße ist und ob sie AGI erreichen kann, ist dies derzeit tatsächlich der gängigste Ansatz.
Aber darüber hinaus lohnt es sich, über eine andere Frage nachzudenken: Die meisten aktuellen großen Modelle basieren auf Transformer. Sie werden einzeln aus Transformer-Bausteinen aufgebaut. Als Baustein dient der Transformer selbst. und Wie viel Raum für Verbesserungen gibt es?
Dies ist die grundlegende Frage, die in der Modellstrukturforschung beantwortet werden muss, und sie ist auch der Ausgangspunkt der DCFormer-Arbeit, die gemeinsam von Caiyun Technology und der Beijing University of Posts and Telecommunications durchgeführt wurde.
Im Multi-Head-Aufmerksamkeitsmodul (MHA) von Transformer arbeitet jeder Aufmerksamkeitskopf völlig unabhängig voneinander.
Dieses Design hat sich in der Praxis aufgrund seiner Einfachheit und einfachen Implementierung als sehr erfolgreich erwiesen, führt jedoch auch zu einem niedrigen Rang der Aufmerksamkeits-Score-Matrix, was die Ausdrucksfähigkeit schwächt, und die wiederholte Redundanz der Aufmerksamkeitskopffunktion verschwendet Parameter und Berechnungen und andere Nachteile. Auf dieser Grundlage haben einige Forschungsarbeiten in den letzten Jahren versucht, eine Form der Interaktion zwischen Aufmerksamkeitsköpfen einzuführen.
Gemäß der Transformer-Loop-Theorie wird in MHA das Verhalten jedes Aufmerksamkeitskopfes durch vier Gewichtsmatrizen WQ, WK, WV, WO (wobei WO erhalten durch) beschrieben Segmentierung der Ausgabeprojektionsmatrix von MHA).
Unter diesen wird WQWK als QK-Schleife (oder Suchauswahlschleife) bezeichnet, die bestimmt, auf welches (einige) Token im Kontext vom aktuellen Token aus der Fokus gelegt werden soll, zum Beispiel:
W
OWV wird OV-Schleife (oder Projektionstransformationsschleife) genannt, die bestimmt, welche Informationen aus dem betreffenden Token (oder welche Attribute projiziert werden sollen) abgerufen werden sollen Schreiben Sie an der aktuellen Position in den Reststrom und sagen Sie dann das nächste Token voraus. Zum Beispiel:
Forscher haben festgestellt, dass Suche (wo man bekommt) und Transformation (was man bekommt) ursprünglich zwei unabhängige Dinge sind, die separat angegeben und nach Bedarf frei kombiniert werden sollten (genau wie bei SQL-Abfragen). Die Auswahl Bedingungen nach WHERE und die Attributprojektion nach SELECT werden separat geschrieben), MHA erzwingt, dass sie in QKOV mit einem Aufmerksamkeitskopf „gebündelt“ werden, was die Flexibilität und Ausdrucksmöglichkeiten einschränkt.
Angenommen, es gibt ein Modell mit den Aufmerksamkeitsköpfen A, B und C, dessen QK- und OV-Schleifen das obige Beispiel vervollständigen können =, dann ersetzen Sie es durch:
Sie müssen kreuzen- Wenn Sie die vorhandenen QK- und OV-Schleifen der Aufmerksamkeitsköpfe kombinieren, ist das Modell möglicherweise „nicht in der Lage, sich umzudrehen“ (überprüft durch den vom System des Forschers erstellten synthetischen Testsatz). Das kleine und mittlere Modell
Mit diesem Ausgangspunkt führte das Forschungsteam dieses Artikels die Komponierungsoperation in MHA ein:
Wie in der Abbildung unten gezeigt, wird DCMHA erhalten:
wird QWQ. Die durch und KWK berechnete Aufmerksamkeitsbewertungsmatrix AS und die Aufmerksamkeitsgewichtsmatrix AW werden linear auf die Dimension num_heads abgebildet, um zuvor eine neue Matrix A' zu erhalten wird mit VWV durch verschiedene lineare Mapping-Matrizen (Kompositionskarte) multipliziert, um die Effekte verschiedener Aufmerksamkeitskopfkombinationen zu erzielen.
In Abbildung 2(c) werden beispielsweise die QK-Schleifen der Köpfe 3 und 7 mit der OV-Schleife von Kopf 1 kombiniert, um einen „neuen“ Aufmerksamkeitskopf zu bilden.
Um die Ausdrucksmöglichkeiten zu maximieren, hoffen die Forscher, dass die Zuordnungsmatrix dynamisch gesteuert wird die Eingabe generieren , also dynamisch bestimmen, wie die Aufmerksamkeitsköpfe kombiniert werden.
Aber die Zuordnungsmatrix, die sie generieren möchten, ist nicht eine, sondern eine solche Matrix muss für jedes Abfragepaar Qi an der Quellposition und den Schlüssel Kj an der Zielposition in der Sequenz generiert werden, was erforderlich ist Sowohl der Rechenaufwand als auch die Speichernutzung werden schwer zu akzeptieren sein.
Zu diesem Zweck zerlegen sie die Mapping-Matrix weiter in die Summe einer eingabeunabhängigen statischen Matrix Wb, einer Low-Rank-Matrix w1w2 und einer Diagonalmatrix Diag(wg ), Sie sind jeweils verantwortlich für Grundkombinationen, dynamische Kombinationen auf begrenzte Weise (d. h. Rang R zwischen Aufmerksamkeitsköpfen und dynamisches Gating der Köpfe selbst (siehe Abbildung 2 (d) und Abbildung 3 (b). )) . Die beiden letztgenannten Matrizen werden dynamisch durch die Q-Matrix und die K-Matrix generiert.
Reduzieren Sie die Berechnungs- und Parameterkomplexität auf ein nahezu vernachlässigbares Maß, ohne die Wirkung zu beeinträchtigen (Einzelheiten finden Sie in der Komplexitätsanalyse im Dokument). In Kombination mit der Optimierung auf JAX- und PyTorch-Implementierungsebene kann DCFormer effizient trainieren und ableiten.
Um die Qualität einer Architektur zu bewerten, ist der zentrale Indikator, auf den sich Forscher konzentrieren, die Effizienz der Umwandlung von Rechenleistung in Intelligenz (oder das Leistungs-Rechenleistungsverhältnis), also die erreichbare Modellleistung durch Investition in Rechenleistung pro Einheit. Verbesserung – weniger Rechenleistung verbrauchen und bessere Modelle erhalten.
Dies ist aus den Skalierungsgesetzkurven in Abbildung 4 und Abbildung 5 ersichtlich (in logarithmischen Koordinaten kann der Verlust jeder Modellarchitektur als ungefähre gerade Linie gezeichnet werden, wenn sich die Rechenleistung ändert. Je geringer der Verlust, desto besser Das Modell) DCFormer kann den Effekt des Transformer-Modells mit der 1,7- bis 2-fachen Rechenleistung erzielen, dh die intelligente Konvertierungsrate der Rechenleistung wird um das 1,7- bis 2-fache erhöht.
Wie ist diese Verbesserung zu verstehen?
Seit der Geburt von Transformer im Jahr 2017 sind GLU MLP und Rotationspositionskodierung RoPE im Hinblick auf die Verbesserung der Leistung und des Rechenleistungsverhältnisses zwei der wenigen Architekturverbesserungen, die sich als universell wirksam erwiesen und in großem Umfang angenommen haben Anzahl der Praxen.
Die Architektur, die diese beiden Verbesserungen zum ursprünglichen Transformer hinzufügt, wird auch Transformer++ genannt. Die stärksten Open-Source-Modelle wie Llama und Mistral verwenden alle diese Architektur. Unabhängig von der Transformer- oder Transformer++-Architektur können durch DCMHA erhebliche Verbesserungen erzielt werden.
Bei der 1,4B-Modellskala ist die Verbesserung von DCMHA größer als die Summe der beiden Verbesserungen von Transformer++ und die Skalierbarkeit ist besser (im Vergleich der blaugrünen Linie und der schwarzen Linie in Abbildung 4 schwächt sich die Verbesserung von DCMHA ab da die Rechenleistung langsamer zunimmt, und Vergleich von Abbildung 4 und Abbildung 5).
Man kann sagen, dass DCFormer die Fähigkeiten von Transformer auf ein neues Niveau hebt.
Das Forschungsteam trainierte zwei Modelle, DCPythia-2.8B und DCPythia-6.9B, zur Bewertung von Mainstream-NLP-Downstream-Aufgaben und verglich sie mit dem Open-Source-Modell Pythia derselben Skala (das Training verwendet dasselbe Hyperparameter als Pythia-Einstellungen) .
Wie aus Tabelle 1 ersichtlich ist, haben DCPythia-2.8B und 6.9B nicht nur niedrigere PPL im Pile-Validierungssatz, sondern auch niedrigere PPL Bei den meisten Downstream-Aufgaben übertrifft es Pythia deutlich. Die durchschnittliche Genauigkeit von DCPythia6.9B bei PPL- und Downstream-Aufgaben übertrifft sogar Pythia-12B.
DCFormer++2.8B wurde im Vergleich zu DCPythia-2.8B weiter verbessert, was die Wirksamkeit der Kombination aus DCMHA- und Lllama-Architektur bestätigt.
Obwohl die Einführung von DCMHA zusätzlichen Trainings- und Inferenzaufwand mit sich bringt, ist aus Tabelle 2 ersichtlich, dass die Trainingsgeschwindigkeit von DCFormer++ 74,5 % bis 89,2 % von Transformer++ beträgt und die Inferenzgeschwindigkeit 81,1 % beträgt -89,7 %, und mit zunehmenden Modellparametern nimmt der zusätzliche Rechenaufwand allmählich ab. Tabelle 2: Vergleich der Trainings- und Inferenzgeschwindigkeiten zwischen Transformer++ und DCFormer++ Die Eingabelänge beträgt 1024 und die generierte Länge beträgt 128.
Aus Tabelle 3 können wir die folgenden Punkte erkennen:
Die ppl, die nur durch die Verwendung einer abfrage- oder schlüsselweisen dynamischen Kombination erhalten wird, ist sehr ähnlich, und die Lücke zu DCFormer++ ist sehr gering.
Link zum ICML2024-Papier: https://icml.cc/virtual/2024/poster/34047.
Link zum Arxiv-Papier: https://arxiv.org/abs/2405.08553.Code-Link: https://github.com/Caiyun-AI/DCFormer.
Das obige ist der detaillierte Inhalt vonICML2024-Highscore! Modifizieren Sie die Aufmerksamkeit auf magische Weise, sodass kleine Modelle doppelt so stark gegen große Modelle kämpfen können. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!