70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

WBOY
Freigeben: 2024-08-06 01:46:42
Original
770 Leute haben es durchsucht
70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Die Autoren dieses Artikels stammen alle vom Huawei Noah Laboratory, und die entsprechenden Autoren sind Wang Yunhe und Chen Xinghao. In den letzten Jahren haben relevante Teams eine Reihe repräsentativer Arbeiten auf Top-Konferenzen wie ICML, CVPR, NeurIPS, ICCV und ECCV veröffentlicht. Sie haben umfangreiche Ergebnisse in Bereichen wie effizienten großen Sprachmodellen und visuellen Modellen erzielt und mit ihnen zusammengearbeitet Die institutionelle Zusammenarbeit ist umfangreich.

Als wohlverdienter „König des Verkehrs“ in der aktuellen KI-Industrie und -Wissenschaft haben große Modelle eine große Anzahl von Wissenschaftlern und Unternehmen angezogen, die Ressourcen in Forschung und Ausbildung investieren. Mit zunehmendem Maßstab sind System- und Technikprobleme zu unvermeidlichen Problemen beim Training großer Modelle geworden. Während des 54-tägigen Trainings von Llama3.1 stürzte das System beispielsweise 466 Mal ab, im Durchschnitt alle 2,78 Stunden!

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Dann sind häufige Lagerkontrollpunkte unbedingt erforderlich. Aber auch die Speicherung von Kontrollpunkten ist ein großes Projekt für sich.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Meta hat große Anstrengungen unternommen, um die Speicherprüfpunktzeit zu verkürzen und die Speicherhäufigkeit zu erhöhen, um häufigen Systemausfällen entgegenzuwirken. Aber häufiges Speichern bedeutet auch einen hohen Speicherressourcenaufwand. Um diese Herausforderung zu meistern, ist der Trainingscluster mit 240 PB ausgestattet.

Die ExCP-Methode von Huawei Noah wurde ins Leben gerufen. Um den enormen Speicheraufwand zu bewältigen, schlugen sie eine extreme Komprimierungs-Checkpoint-Technologie vor, die das Modell verlustfrei um das 70-fache komprimieren kann, wodurch der Speicheraufwand während des Trainings erheblich reduziert wird.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Der Code ist derzeit Open Source und wird unter dem Apache 2.0-Framework veröffentlicht. Einige Partner in der Ausgabe haben die Ergebnisse erfolgreich reproduziert.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

  • Artikeladresse: https://arxiv.org/abs/2406.11257
  • Lageradresse: https://github.com/Gaffey/ExCP

Die Methode ist auch Sehr gute Innovation, in dem Artikel wurden zwei wichtige Konzepte erwähnt: Das eine besteht darin, die Restinformationen von Kontrollpunkten im Training zu verwenden, um durch die spärliche Informationsmenge in der Zeitreihe ein höheres Bereinigungsverhältnis zu erreichen um eine insgesamt hohe Komprimierungsrate zu erreichen.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Spezifische Methode

1. Checkpoint-Rest

Während des Trainingsprozesses können die aktuellen Parameter als die im vorherigen Checkpoint gespeicherten Gewichte zuzüglich des Erfolgs betrachtet werden ive Die Die Summe der Gradientenaktualisierungen während der Iterationen ist relativ spärlich und enthält weniger Informationen. Daher kann durch Komprimieren dieses Rests ein besseres Komprimierungsverhältnis erzielt werden. Im Gegenteil, der im Optimierer gespeicherte Impuls ist der gleitende Durchschnitt des ersten und zweiten Moments des Gradienten. Für den ersten Moment beträgt der Standardparameter des gleitenden Durchschnitts 0,9, der nach der Iteration im Bereich von Hunderten liegt. Es besteht keine große Korrelation mit dem am letzten Prüfpunkt gespeicherten Inhalt, sodass der Optimierer direkt seinen eigenen Wert und nicht den Rest komprimiert. Der letzte zu komprimierende Prüfpunkt wird als

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

ausgedrückt
2. Gewichtsoptimierer-Impulskomprimierung

Die bestehende Arbeit im Zusammenhang mit der Modellkomprimierung konzentriert sich im Allgemeinen nur auf die Inferenzleistung des Modells oder die Größe des endgültigen Speicherkontrollpunkts des Modells, zahlt sich jedoch nicht aus Achten Sie auf den Speicherplatzaufwand des Modells während des gesamten Trainingsprozesses. Daher komprimieren bestehende Arbeiten nur die Gewichte und ignorieren, dass gängige Optimierer wie Adam tatsächlich doppelt so viel Impuls speichern wie die Anzahl der Gewichte. Einerseits komprimiert diese Arbeit die beiden zusammen und verbessert so das Gesamtkomprimierungsverhältnis erheblich. Andererseits nutzt sie auch die Korrelation zwischen Gewichten und Optimiererimpuls, um das Komprimierungsverhältnis des anderen weiter zu verbessern.

Gewichtsbeschneidung: Da das Gewicht der Beschneidung der Restwert ist, kann das zweite Moment des Optimiererimpulses ungefähr die Änderungsamplitude des Gewichtsrestwerts im vergangenen Zeitraum darstellen, also das zweite Moment des Optimierers Das Ordnungsmoment kann als Indikator zur Bestimmung des Schnittverhältnisses verschiedener Schichten verwendet werden. Die Beschneidungsstrategie wird in der folgenden Formel dargestellt:

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.wobei W und 70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben. das Gewicht bzw. das Moment zweiter Ordnung darstellen.


Optimierer-Momentum-Beschneidung: Für die Momentum-Beschneidung können Sie das Moment erster Ordnung als Indikator für die Durchführung der Beschneidung verwenden. Im Artikel finden Sie einen kurzen Beweis für die Konvergenz. Wenn gleichzeitig das Gewicht einer Position beschnitten wurde, sollte gleichzeitig auch der Optimiererimpuls der entsprechenden Position verarbeitet werden, sodass die Bereinigungsstrategie wie in der folgenden Formel dargestellt ist

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

wobei 70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben. das erste darstellt. Bestellzeitpunkt.

3. Gesamtkomprimierungsprozess

Der Gesamtkomprimierungsprozess ist wie in Algorithmus 1 gezeigt, und die Schritte zur Berechnung des Gewichtsrests/der gemeinsamen Komprimierung/der ungleichmäßigen Quantisierung/Kodierungskomprimierung erfolgen nacheinander durchgeführt, um das endgültige Ergebnis zu erhalten. Komprimieren Sie die Ergebnisse.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Der Vorgang zum Wiederherstellen der vollständigen Prüfpunktdatei ist wie in Algorithmus 2 dargestellt. Nach der Dekomprimierung wird das Gleitkommaergebnis zunächst aus dem nach ungleichmäßiger Quantisierung gespeicherten Codebuch und Index wiederhergestellt und dann mit den Benchmark-Gewichten verglichen (das ursprüngliche Gewicht des vorherigen Kontrollpunkts oder das wiederhergestellte rekonstruierte Gewicht) werden addiert, um die vollständige Datei des Kontrollpunkts zu erhalten. Der Vorgang zum Wiederherstellen der Prüfpunktdateien im gesamten Trainingsprozess ist wie in Algorithmus 3 dargestellt. Nach Abschluss des Trainings werden nur die zufälligen Startwerte der Initialisierungsgewichte und die an jedem Prüfpunkt gespeicherten Komprimierungsergebnisse gespeichert, und dann werden die Prüfpunkte wiederhergestellt Sequenz, um die vollständige Sequenz zu erhalten. Eine Sequenz von Kontrollpunkten, aus der ein oder mehrere Kontrollpunkte ausgewählt werden können, um das Training/Testen usw. fortzusetzen.

Experimentelle Ergebnisse

Der Artikel bewertet nicht nur große Sprachmodelle, diese Methode kann auch bei größeren visuellen Modellen wie ViT-L32 gute Ergebnisse erzielen.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Aus dem Ablationsexperiment geht auch hervor, dass die Verwendung von Restbeschneidung den durch Beschneidung verursachten Verlust erheblich reduziert.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Der Artikel enthält auch Beispiele für Fragen und Antworten für große Sprachmodelle vor und nach der Komprimierung. Es ist ersichtlich, dass die Komprimierung selbst die Frage- und Antwortfähigkeit des Modells nicht beeinträchtigt.

70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.

Das obige ist der detaillierte Inhalt von70-fache ultimative Komprimierung! Egal wie viele Kontrollpunkte Sie an einem großen Modell haben, Sie werden keine Angst haben.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage