Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren-KI-php.cn

Inhaltsverzeichnis

Was ist die Schwierigkeit bei der automatischen Parallelisierung großer Modelle

Das verteilte Trainingsartefakt Galvatron realisiert eine effiziente automatische Parallelisierung großer Modelle mit einem Klick.

Experimentelle Ergebnisse

北大河图 Teamprofil

Heim

Technologie-Peripheriegeräte

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 09:10 PM

模型论文

In letzter Zeit glänzen „große Modelle“ in verschiedenen Anwendungsszenarien im KI-Bereich. Unter ihnen ist das auf Transformer basierende groß angelegte Pre-Training-Modell eines der typischsten große Modelle und ist zur Kernarchitektur des aktuellen Foundation-Modells geworden. Beispielsweise verwenden die BERT- und GPT-Serien im NLP-Bereich, die ViT- und Swin-Transformer-Serien im CV-Bereich sowie das in letzter Zeit sehr beliebte Multi-Experten-Hybridmodell MoE und das multimodale Modell CLIP usw. alle Transformer als Kerninfrastruktur. Dementsprechend haben solche dichten großen Modelle oft Parameter im Milliarden-, Dutzendmilliarden- oder sogar Billionenbereich. Sie sind mit einem hohen Rechen-, Speicher- und Kommunikationsaufwand verbunden und bringen auch große Herausforderungen für die KI-Infrastruktur mit sich.

Um das Training großer Modelle zu unterstützen, haben Menschen viele Tools entwickelt (z. B. Megatron von NVIDIA, DeepSpeed von Microsoft, FairSeq von Meta). usw. usw.), um verschiedene parallele Methoden zu implementieren, wie z. B. Datenparallelität, Tensormodellparallelität, Pipeline-Parallelität, Sharded-Datenparallelität usw. Diese Systeme bieten eine gute Kapselung der oben genannten parallelen Methoden und schirmen die entsprechenden Implementierungsdetails von außen ab, sodass Benutzer hybride parallele Strategien durch Hinzufügen von Konfigurationen implementieren können.

Auf der Grundlage der oben genannten Ideen wurde viel daran gearbeitet, verschiedene parallele Methoden auf Tensor- oder Operatorebene auszudrücken. Die „Automatisierung“ davon Die Art der Arbeit spiegelt sich hauptsächlich im Transformationsprozess von der parallelen API zur Ausführungsschicht wider. Wenn man sich jedoch nur auf das Entwerfen paralleler APIs oder Zwischenausdrücke beschränkt, löst diese technische Kapselung das Problem des verteilten Trainings nicht grundsätzlich. Das intuitivste Ergebnis ist, dass Benutzer immer noch nicht von den Problemen der verteilten Bereitstellung befreit werden können. Tatsächlich ist die verteilte Bereitstellung großer Modelle ein sehr komplexes Problem. Die meisten aktuellen verteilten Trainingssysteme sind auf die manuellen wiederholten Versuche der Benutzer und die Erfahrung von Systemexperten angewiesen, was zu ernsthaften Problemen mit der geringen Effizienz der Ressourcennutzung führt zwischen ihr und der echten „automatischen Parallelität“ besteht eine beträchtliche Lücke.

Auf dieser Grundlage schlug das Beidahetu-Team ein verteiltes Trainingsartefakt Galvatron vor, um eine effiziente automatische Parallelisierung großer Modelle zu erreichen. Das Forschungspapier wurde für die internationale Spitzenkonferenz VLDB 2023 ausgewählt .

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

Papieradresse: https://arxiv.org/abs/2211.13878
Projektcode-Link: https://github. com/PKU-DAIR/Hetu/tree/main/tools/Galvatron

Was ist die Schwierigkeit bei der automatischen Parallelisierung großer Modelle

# 🎜🎜 #

Forscher glauben, dass sich die Schwierigkeit der automatischen Parallelisierung großer Modelle hauptsächlich in den folgenden drei Aspekten widerspiegelt:

(1) Vielfalt: Erstens, In Bezug auf die Methoden blühen die aktuellen parallelen Methoden großer Modelle auf. Unabhängig von hybriden parallelen Methoden wird es erhebliche Unterschiede bei verschiedenen grundlegenden parallelen Methoden geben, was zu unterschiedlichen Speicheraufwand- und Kommunikationskosten führt Recheneffizienz. Die folgende Abbildung zeigt die vier wichtigsten grundlegenden parallelen Methoden, nämlich Datenparallelität, Tensorparallelität, Pipeline-Parallelität und Sharded-Data-Parallelität. Der Prozess der verteilten Ausführung einfacher Matrixmultiplikationsoperatoren auf der Zhang-GPU.

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

Parallelmethoden-Vergleichsdiagramm# 🎜🎜#

Zweitens sind in Bezug auf Modelle in letzter Zeit unzählige verschiedene Modellarchitekturen entstanden, die häufig mit unterschiedlichen Modellkonfigurationen einhergehen (z. B , unterschiedliche Eingabesequenzlängen, Anzahl der Modellebenen, Breite der verborgenen Modellebene usw.), was zu Unterschieden in der Rechenlast führt. Darüber hinaus sind Benutzer hinsichtlich der Hardware häufig mit sehr differenzierten Clusterumgebungen konfrontiert und können mit unterschiedlichen Speicherkapazitäten, Kommunikationsbandbreiten, Rechenkapazitäten usw. konfrontiert werden. Im Allgemeinen kann aufgrund der oben genannten Vielfalt keine parallele Technologie immer die beste Trainingseffizienz erzielen, und „automatische Parallelität“ ist zur zentralen Herausforderung des verteilten Trainings geworden.

(2) Komplexität: Die obige Analyse ist tatsächlich relativ einfach, sogar für denselben Operator können mehrere verschiedene grundlegende parallele Methoden gleichzeitig angewendet werden, wenn wir die hybride Parallelität betrachten, die aus der Kombination dieser grundlegenden Parallelen besteht Methodenmethode, das Problem wird sehr kompliziert. Noch wichtiger ist, dass der Berechnungsgraph eines großen Modells oft eine sehr große Struktur aufweist, was einen größeren Cluster erfordert. Wenn jeder Operator untersucht wird (einschließlich der Auswahl geeigneter Rechenressourcen im Cluster und des Entwurfs entsprechender hybrider paralleler Methoden), wird das Problem auftreten Die Kombinationsraumexplosion führt dazu, dass es schwierig wird, den optimalen verteilten Ausführungsplan für das gesamte Modell zu finden.

(3) Praktikabilität: Darüber hinaus ist auch die Praktikabilität ein sehr wichtiges Thema. Einerseits muss bei der automatischen parallelen Suche für verschiedene verteilte Ausführungslösungen ein relativ genauer Speicher-, Kommunikations- und Rechenaufwand bereitgestellt werden. Andernfalls weichen die Ergebnisse zu stark von der tatsächlichen Ausführung ab, was zu suboptimalen Lösungen führt überhaupt nicht in der Lage zu sein, dies zu tun. Aus diesem Grund ist ein sehr genaues Kostenmodell erforderlich, um verschiedene Modellstrukturen und Hardwarebedingungen abzubilden. Andererseits muss der zusätzliche Zeitaufwand durch die automatische Parallelität des Systems in einem akzeptablen Rahmen liegen und auch zu hohe Suchkosten sind nicht akzeptabel.

Das verteilte Trainingsartefakt Galvatron realisiert eine effiziente automatische Parallelisierung großer Modelle mit einem Klick.

Systemfunktionen: Suche: Eine Art von Arbeit befasst sich hauptsächlich mit dem Suchraum, der sowohl Datenparallelität als auch Modellparallelität berücksichtigt. Die andere Art von Arbeit wird aus Pipeline-Parallelitätsszenarien generiert und mit Datenparallelität kombiniert. SPRENKELN. Auf dieser Basis gibt es auch einige abgeleitete Werke wie Unity und Alpa, die den Umfang der automatischen parallelen Erkundung weiter erweitern. Das vom Beidahetu-Team vorgeschlagene System „Galvatron“ gehört ebenfalls zum Forschungsgebiet der automatischen Parallelsuche, hat aber im Vergleich zu bestehenden Arbeiten vor allem die folgenden drei Vorteile:

(1) In Bezug auf Diversität ist die Parallele Die Dimensionen, die vorhandene Arbeiten unterstützen können, sind noch relativ begrenzt, und Galvatron kann nicht nur parallelere Dimensionen unterstützen, sondern auch die differenziertere Transformer-Modellstruktur genau modellieren und seine adaptiven Abstimmungsfähigkeiten unter verschiedenen Cluster-Hardwarebedingungen verifizieren.

Vergleichsdiagramm eines verteilten Trainingssystems mit großem Modell Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

(2) Aufgrund seiner Vorteile in der Vielfalt steht Galvatron ein beispiellos großer Suchraum gegenüber Die Forscher untersuchten mehrere wichtige Beobachtungen, die im aktuellen groß angelegten verteilten Trainingsprozess experimentell oder theoretisch verifiziert wurden, als Bereinigungskriterien für den Suchraum und erreichten so eine effiziente Optimierung des verteilten Ausführungsplans.

(3) Im Hinblick auf die Praktikabilität kombiniert diese Forschung die Vorteile theoretischer Modellierung und experimenteller Messungen, um genaue Schätzungen des Speicher-, Kommunikations- und Rechenaufwands zu erhalten, und berücksichtigt sogar den GPU-Overhead, der durch die Überschneidung der Rechenleistung verursacht wird und Kommunikation Das Problem der verringerten Ausführungseffizienz wird beseitigt, um sicherzustellen, dass ausreichend genaue Ergebnisse der automatischen parallelen Optimierung erzielt werden können.

Darüber hinaus wählt die unterste Ebene von Galvatron PyTorch als Ausführungs-Engine, das mit gängigen Mainstream-Transformer-Modellimplementierungen wie Huggingface kompatibel ist, sodass es gleichzeitig keine zusätzliche Belastung für PyTorch-Benutzer darstellt Sie müssen nicht für zusätzliche Systeminstallationen oder Debugging bezahlen. Bei der Verwendung müssen Sie nur wenige Codezeilen hinzufügen und können den gesamten Prozess der automatischen Parallelisierung problemlos abschließen.

Galvatron-Workflow und Benutzeroberflächenanzeige

Schlüsseltechnologien

1. Suchraumzerlegung basierend auf Entscheidungsbaum

Galvatron wurde entwickelt, um effizient und automatisch in einem komplexen und großen parallelen Richtlinienraum zu suchen und den optimalen parallelen Ausführungsplan für ein bestimmtes Transformer-Modell und eine verteilte Umgebung zu generieren. In Bezug auf den Suchraum ist Galvatron das erste automatische Paralleltrainingssystem der Branche, das vier gängige Parallelmethoden berücksichtigt, darunter Datenparallelität (DP), Sharded Data Parallelism (SDP) und Tensorparallelität (Tensorparallelität (TP). und Pipeline-Parallelität (PP). Da die hybride Parallelstrategie eine beliebige Kombination der oben genannten vier parallelen Algorithmen umfasst, ist der durch diese Kombination bereitgestellte Suchraum in einem Szenario mit mehreren GPUs sehr groß. Beispielsweise besteht in einem Szenario mit zwei Maschinen und vier Karten eine mögliche Strategie darin, 2-Wege-TP innerhalb der Maschine und 2-Wege-PP zwischen Maschinen zu verwenden. Eine andere mögliche Strategie ist die Verwendung von 2-Wege-PP innerhalb der Maschine und zwischen Maschinen . Verwenden Sie 2-Wege-DP. Wenn die Anzahl der GPUs in einem Knoten auf 8 Karten erweitert wird, gibt es Hunderte von Kandidatenstrategien für jede Schicht des Modells. Mit zunehmender Anzahl der Modellebenen nimmt die Größe des Suchraums exponentiell zu, was eine effektive Erkundung erschwert.

Um einen so großen Suchraum effizient zu durchsuchen, schlägt die Studie zunächst die folgenden Beobachtungen als Leitfaden vor:

Takeway #1: PPs werden in der Regel über Geräteinseln hinweg platziert. „Geräteinsel“ bezieht sich hier auf eine Gruppe von Geräten mit hoher interner Bandbreite. Bei den meisten Transformer-Modellen ist das Kommunikationsvolumen von PP im Vergleich zu anderen parallelen Methoden deutlich geringer. Daher legen die Leute normalerweise Wert darauf, dass PP das Modell in Scheiben schneidet und es zwischen Ausrüstungsinseln platziert.
Takeway#2: Unter der Prämisse homogener Geräte tendiert die Parallelstrategie dazu, die Geräte gleichmäßig aufzuteilen. Beispielsweise führt ein 2-Wege-DP für eine 4-Karten-GPU dazu, dass das Gerät eher in zwei Sätze von 2-Karten-Geräten als in einen Satz von 1-Karten- und einen Satz von 3-Karten-Geräten aufgeteilt wird. In diesem Fall stimmt die optimale Hybrid-Parallelitätsrichtlinie innerhalb einer Gerätegruppe mit der optimalen Richtlinie innerhalb anderer Gruppen überein.
Takeway #3: Wenn DP und SDP gemischt werden können, ist es theoretisch besser, nur SDP zu verwenden. Den Analyseergebnissen zufolge sind der Kommunikations- und Speicheraufwand von N-Way SDP besser als die Kombination von und , darunter .

Basierend auf den oben genannten wichtigen Beobachtungen schlägt diese Studie eine Suchraumkonstruktionsmethode basierend auf Entscheidungsbäumen vor:

(1) Galvatron verwendet zunächst ein Transformer-Modell, das auf Takeway#1 und Takeway#2 basiert PP unterteilt das Modell in mehrere Stufen und unterteilt die Ausrüstung gleichmäßig und kontinuierlich in mehrere Ausrüstungsgruppen. Im 8-Karten-Szenario ist das Modell beispielsweise in 1/2/4/8-Wege-PP unterteilt, und die entsprechenden Gerätegruppengrößen sind jeweils 8/4/2/1.

(2) Jede PP-Segmentierung entspricht einem Entscheidungsbaum und einem Untersuchraum. Die Gesamtzahl der Entscheidungsblattknoten entspricht der Größe der Gerätegruppe und die Höhe des Entscheidungsbaums entspricht der Anzahl der verfügbaren Parallelen Methoden, das heißt, jede Ebene des Entscheidungsbaums Eine parallele Strategie kann angewendet werden.

(3) Parallele Strategien können nicht zwischen verschiedenen Ebenen des Entscheidungsbaums wiederverwendet werden.

(4) Der Grad der Nicht-Blattknoten wird standardmäßig aus der Exponentialpotenz von 2 {2,4,8,…} ausgewählt.

Basierend auf den oben genannten Regeln für die Konstruktion des Entscheidungsbaums kann der von Galvatron erstellte Entscheidungsbaum jede Kombination der oben genannten Parallelität darstellen. Takeway#1 und Takeway#2 helfen Galvatron, ineffiziente Parallelkombinationen zu vermeiden und den Suchraum zu reduzieren. Für das Szenario des Trainings eines einschichtigen Modells auf einer 8-Karten-GPU ergeben die oben genannten Regeln 34 Kandidaten für hybride Parallelstrategien. Darüber hinaus wird die Anzahl der 8-Karten-Kandidatenstrategien auf 22 reduziert, nachdem Takeway#3 verwendet wurde, um die Situation zu bereinigen, in der DP und SDP gleichzeitig in einem Entscheidungsbaum erscheinen.

Die folgende Abbildung zeigt ein schematisches Diagramm des Entscheidungsbaums unter unterschiedlicher PP-Parallelität (8/4/2/1) im 8-Karten-GPU-Szenario.

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

Schematisches Diagramm des Entscheidungsbaums unter unterschiedlicher PP-Parallelität (8/4/2/1) im 8-Karten-GPU-Szenario

2. Paralleler Optimierungsalgorithmus basierend auf dynamischer Programmierung

Bestehende Systeme wie z wie Megatron oder DeepSpeed erfordern normalerweise, dass Benutzer das globale Parallelschema und den entsprechenden Parallelitätsgrad angeben, was die Fähigkeit, verteilte Ausführungspläne auszudrücken, erheblich einschränkt. Das Optimierungsziel von Galvatron besteht darin, automatisch den optimalen verteilten Ausführungsplan zu generieren, ohne dass der Benutzer eine parallele Konfiguration angeben muss, wenn dem Benutzer eine Modelldefinition und eine verteilte Umgebung gegeben wird. Insbesondere besteht das Optimierungsziel von Galvatron bei gegebenen M- und N-GPU-Geräten mit L-Schicht darin, nach dem höchsten Systemdurchsatz T_pt zu suchen und die entsprechende parallele Lösung zurückzugeben. Die parallele Lösung bezieht sich hier auf die Schicht (oder den Operator). ) als Grundeinheit einer feinkörnigen hybriden Parallelstrategie.

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

Algorithmus 1: Galvatron-Optimierungsprozess

Optimierungsprozess: Der Optimierungsprozess von Galvatron wird in Algorithmus 1 dargestellt. Die äußerste Schleife von Galvatron erhöht schrittweise die Suchstapelgröße, bis sie den Gerätespeicher bei gegebener Stapelgröße B jedes Kandidaten überschreitet. Galvatron teilt zunächst das Modell PP gemäß Takeaway Nr. 1 auf und sucht nach unterschiedlichen Parallelitätsgraden P (Zeile 4). Nach Auswahl von P -way PP, das Modell wird in P-Stufen unterteilt (Zeile 6) und alle entsprechenden Geräte werden in P-Gruppen unterteilt, wobei jede Gruppe N/P-Geräte enthält. Anschließend erstellt Galvatron den entsprechenden Entscheidungsbaum, der jede Kombination von DP ausdrücken kann , SDP und TP ohne Duplizierung, wodurch der Strategiesatz S erhalten wird. Dann verwendet Galvatron für jede Modellstufe M_i unter der Gerätespeichergrenze E die dynamische Programmiersuche, um die optimale Hybrid-Parallelstrategie für jede Schicht zu erhalten, und gibt die minimalen Zeitkosten zurück ( Zeile 9); schließlich wählt Galvatron die Strategie mit dem höchsten Durchsatz unter allen möglichen PP-Parallelitäten und Chargengrößen aus und gibt sie zurück (Zeile 15).

Dynamische Programmiersuche: Im Folgenden wird der dynamische Programmiersuchalgorithmus im parallelen Optimierungsworkflow von Galvatron vorgestellt. Für eine gegebene Modellstufe mit L Schichten wird die Kostenfunktion C(L,E) verwendet, um die Gesamtausführungszeit des L-Schicht-Modells unter der Gerätespeichergrenze E darzustellen, und stellt die Ausführungszeit der L-Schicht unter Verwendung der Strategie dar S_j, wobei die Strategie S_j die Strategie im parallelen Strategiekandidatensatz S ist. Durch Festlegen des Anfangswerts

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

folgt die dynamische Programmiersuche von Galvatron der folgenden Zustandsübergangsgleichung (Formel 1):

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

wobei der Speicher von Schicht L unter Verwendung der Strategie S_j ist Der Overhead, , ist der Konvertierungs-Overhead, der durch die L-te Schicht mit der Strategie S_j und die vorherige Schicht mit der Strategie S_i verursacht wird. Wenn während des Zustandsübertragungsprozesses der Speicher-Overhead die Gerätespeichergrenze E überschreitet, gibt die Overhead-Funktion C Unendlich zurück.

Komplexitätsanalyse: Die rechnerische Komplexität der von Galvatron verwendeten dynamischen Programmiersuche (Formel 1) beträgt O(LE|S|). Es ist ersichtlich, dass die Größe des Suchraums S jeder Schicht für die Gesamtkomplexität der Suche sehr wichtig ist. Die von Galvatron vorgeschlagene Suchraumzerlegung auf der Grundlage von Entscheidungsbäumen kann den Suchraum erheblich reduzieren und den Suchaufwand innerhalb eines angemessenen Bereichs steuern .

3. Methode zur Schätzung der Ausführungskosten basierend auf Hybridmodellierung

Galvatron verwendet ein Modul zur Kostenschätzung von Richtlinien, um den Rechen-, Kommunikations- und Speicheraufwand hybrider paralleler Strategien abzuschätzen. Bestehende Kostenschätzungsmethoden umfassen hauptsächlich Messung (Profilierung) und Simulation (Simulation). Galvatron nutzt die Stärken beider und entwickelt eine kostengünstige, effiziente und genaue Kostenschätzungsmethode. Insbesondere für den Speicheraufwand verwendet Galvatron die Form und den Datentyp des Tensors, um die Schätzung für die Berechnungszeit abzuschließen. Galvatron misst die Berechnungszeit für jede Probe durch Profilierung auf einem einzigen Gerät und kombiniert die Chargengröße und die Anpassungsfunktion Schätzen Sie die Gesamtberechnungszeit. Für die Kommunikationszeit erhält Galvatron die geschätzte Kommunikationszeit, indem es das Kommunikationsvolumen durch die Kommunikationsbandbreite des Geräts dividiert, wobei das Kommunikationsvolumen theoretisch berechnet und die Kommunikationsbandbreite durch Profilierung gemessen wird.

Basierend auf den obigen Schätzergebnissen berechnet Galvatron die Kosten c(l,s) einer gegebenen Schicht unter Verwendung einer gegebenen Strategie durch den simulierenden Ausführungsprozess. Anders als beim Kostenmodell bestehender verteilter Trainingssysteme berücksichtigt Galvatron bei der Modellierung erstmals die Auswirkungen überlappender Berechnungen und Kommunikation auf die Verschlechterung der GPU-Leistung. In dieser Studie wurde experimentell festgestellt, dass eine Verschlechterung der GPU-Leistung aufgrund von Überlappungen die Ausführungseffizienz des Systems erheblich beeinträchtigen kann, was in früheren Arbeiten ignoriert wurde. Dadurch sind die Kostenschätzungen von Galvatron genauer und die parallele Optimierung besser.

Experimentelle Ergebnisse

Experimentelle Einstellungen: Im Experiment verglichen die Forscher Galvatron und vier Basissysteme (DP, SDP, TP, PP) und DeepSpeed 3D Parallelism wurden von Experten zum Vergleich festgelegt. Gleichzeitig wurden zwei abgeschwächte Versionen von Galvatron als zusätzliche Basislinien im begrenzten Parallelstrategie-Kombinationsraum eingerichtet (d. h. TP+DP, PP+DP). suchen. In dieser Studie wurden die NLP-Transformer-Modelle BERT und T5 sowie die CV-Transformer-Modelle ViT und Swin Transformer als Versuchspersonen ausgewählt.

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

Durchsatzvergleich zwischen Galvatron und Basissystemen unter 8 GPUs 20G Videospeicher

Experimenteller Vergleichseffekt: Die Studie wurde zunächst in einer Nvidia RTX TITAN 24GB-Umgebung mit acht Karten durchgeführt. Experimente zeigen, dass Galvatron bei unterschiedlichen Modellgrößen und unterschiedlichen Speicherbeschränkungen immer den optimalen Durchsatz erreicht und der Trainingsdurchsatz im Vergleich zu den bestehenden hochmodernen Einzelparallelmethoden und Hybridparallelmethoden deutlich verbessert wird. Insbesondere beim ViT-Modell kann das Durchsatzbeschleunigungsverhältnis von Galvatron im Vergleich zu einer Einzelstrategie bis zu 338 % erreichen, und sein Durchsatzbeschleunigungsverhältnis kann im Vergleich zu anderen Hybrid-Parallelstrategien bis zu 55 % erreichen und bestehende gemischte Strategie, Galvatron hat ein Beschleunigungsverhältnis von bis zu 200 %-334 % und 28 %-52 %.

Beidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren

Schematische Darstellung eines Teils der durch Galvatron-Suche erhaltenen optimalen Parallelstrategie# 🎜🎜#

Interpretierbarkeitsexperiment: In dieser Studie wurden einige optimale Parallelstrategien ausgewählt, die durch die Galvatron-Suche für die Anzeige ermittelt wurden. Für das BERT-Modell im Fall von 8 GB (Fall A) wählte Galvatron zwei hybride Parallelstrategien: PP-TP-DP und PP-TP-SDP. Als der verfügbare Videospeicher auf 12 GB anstieg, gab Galvatron PP auf und entschied sich für die Verwendung von mehr Mehrere DPs und SDP werden eingeführt, um Videospeicherplatz zu sparen. Bei Swin Transformer ist die Situation etwas anders. Wenn der Speicher relativ knapp ist (Fall C), ist die Parallelität bei flachem SDP höher und die Parameter werden größer, sodass TP nach und nach SDP ersetzt. Wenn der Videospeicher zunimmt (Fall D), wird nicht nur PP wieder aktiviert, um einen Teil des ineffizienten SDP zu ersetzen, sondern die flache Schicht tendiert auch dazu, DP offensichtlicher zu verwenden. Die Studie testete Galvatron außerdem auf größeren Clustern, einschließlich einer Umgebung mit Nvidia RTX TITAN-GPUs mit 16 Karten und Nvidia A100-GPUs mit 64 Karten. In der 16-Karten-Umgebung weist Galvatron im Vergleich zu anderen Strategien immer noch den höchsten Durchsatz auf. Aufgrund der vielfältigeren Hybrid-Parallel-Strategie kann Galvatron im Vergleich zu den experimentellen Ergebnissen mit 8 Karten einen mehr als doppelten Durchsatz erzielen auf 16 Karten. Im 64-Karten-Experiment hatte Galvatron neben anderen Strategien auch die höchste Durchsatzrate. Dies zeigt, dass Galvatron eine gute Skalierbarkeit aufweist. Detaillierte Ergebnisse finden Sie im Originalpapier.

北大河图 Teamprofil

Das Hetu-Entwicklungsteam kommt vom Data and Intelligence Research Lab der Peking-Universität (im Folgenden als: Labor bezeichnet), das Labor wird von Professor geleitet Cui Bin von der Fakultät für Informatik der Universität Peking hat im Laufe der Jahre vor allem Spitzenforschung in den Bereichen künstliche Intelligenz und Big Data betrieben und zahlreiche Ergebnisse in der theoretischen und technologischen Innovation sowie in der Systemforschung und -entwicklung erzielt. und wurde zu den führenden internationalen akademischen Institutionen gezählt. Er hat mehr als 100 wissenschaftliche Arbeiten in Konferenzen und Fachzeitschriften veröffentlicht.

Das Hetu-System ist ein verteiltes Deep-Learning-System für sehr große Modelle und weist eine bessere Systemfunktionalität und Systemkomplexität auf hat viele innovative Beiträge in Bezug auf Sicherheit und Benutzerfreundlichkeit des Systems geleistet, wie z. B. automatische verteilte Parallelstrategien, Konsistenzprotokolle und Kommunikationsarchitekturen, GPU-Operatoroptimierung usw. Das Hetu-Team hat derzeit akademische Innovationen in verschiedenen verteilten maschinellen Lern- oder Deep-Learning-Szenarien durchgeführt und entsprechende Ergebnisse wurden in internationale Top-Konferenzen wie SIGMOD, VLDB, ICML, KDD usw. aufgenommen. Darunter das spärliche große Modell Das verteilte Trainingssystem HET gewann den VLDB 2022 Best Prize. Galvatron, das von VLDB 2023 angenommene Papier, ist ein weiterer Durchbruch des Hetu-Teams in verteilten Trainingsszenarien mit dichten, großen Modellen. Es wurde in das Hetu-System integriert und ist Open Source. Derzeit hat das Hetu-Team wissenschaftliche Forschungskooperationen und Anwendungsimplementierungen mit vielen namhaften Unternehmen wie Tencent, Alibaba, Kuaishou und ByteDance durchgeführt.

Das obige ist der detaillierte Inhalt vonBeidahetu veröffentlicht Galvatron, ein verteiltes Trainingsartefakt, um eine effiziente und automatische Parallelisierung großer Modelle mit einem Klick zu realisieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7470

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

FisheyeDetNet: der erste Zielerkennungsalgorithmus basierend auf einer Fischaugenkamera Apr 26, 2024 am 11:37 AM

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! Mar 21, 2024 pm 05:21 PM

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

See all articles