Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven-KI-php.cn

LLM ist sehr stark und um eine nachhaltige Erweiterung des LLM zu erreichen, ist es notwendig, Methoden zu finden und umzusetzen, die seine Effizienz verbessern können. Der Hybridexperte (MoE) ist ein wichtiges Mitglied dieser Art von Methode.

In jüngster Zeit verwenden alle von verschiedenen Technologieunternehmen vorgeschlagenen neuen Generationen großer Modelle die Mixture of Experts (MoE)-Methode.

Das Konzept der Hybridexperten wurde erstmals 1991 in der Arbeit „Adaptive Mischungen lokaler Experten“ geboren. Es wird seit mehr als 30 Jahren umfassend erforscht und weiterentwickelt. In den letzten Jahren hat diese mehr als dreißig Jahre alte Technologie mit dem Aufkommen und der Entwicklung von Sparse-Gated-MoE, insbesondere in Kombination mit großen Sprachmodellen auf Transformer-Basis, neues Leben erhalten.

Das MoE-Framework basiert auf einer einfachen, aber wirkungsvollen Idee: Verschiedene Teile des Modells (sogenannte Experten) konzentrieren sich auf unterschiedliche Aufgaben oder verschiedene Aspekte der Daten.

Wenn dieses Paradigma für eine Eingabe verwendet wird, nehmen nur damit verbundene Experten an der Verarbeitung teil, sodass der Rechenaufwand kontrolliert werden kann und dennoch von einem großen Maß an Fachwissen profitiert wird. Daher kann MoE die Fähigkeiten großer Sprachmodelle verbessern, ohne den Rechenaufwand wesentlich zu erhöhen.

Wie in Abbildung 1 dargestellt, ist die MoE-bezogene Forschung stark gewachsen, insbesondere nach dem Aufkommen von Mixtral-8x7B und verschiedenen LLMs auf industrieller Ebene wie Grok-1, DBRX, Arctic, DeepSeek-V2 usw. im Jahr 2024.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Dieses Bild stammt aus einem kürzlich von einem Forschungsteam der Hong Kong University of Science and Technology (Guangzhou) veröffentlichten MoE-bezogenen Forschungsbericht und schlägt eine neue Klassifizierungsmethode dieser Studien vor werden in drei Kategorien eingeteilt: Algorithmen, Systeme und Anwendungen.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Papiertitel: A Survey on Mixture of Experts
Papieradresse: https://arxiv.org/pdf/2407.06204

Diese Website hat den Hauptinhalt dieses Überprüfungsberichts zusammengestellt. Um den Lesern zu helfen, den aktuellen Entwicklungsüberblick von MoE zu verstehen, lesen Sie bitte das Originalpapier für weitere Details. Darüber hinaus haben wir am Ende des Artikels auch einige MoE-bezogene Berichte zusammengestellt.

Hintergrundwissen von Hybridexperten

In einem Transformer-basierten Large Language Model (LLM) ist die Zusammensetzung jeder Hybridexpertenschicht (MoE) normalerweise ein „Expertennetzwerk“ {?_1, ... , ?_ ?} Gepaart mit einem „Gating-Netzwerk“ G.

Dieses Gating-Netzwerk hat normalerweise die Form eines linearen Netzwerks mit einer Softmax-Aktivierungsfunktion, deren Aufgabe darin besteht, die Eingabe an das entsprechende Expertennetzwerk weiterzuleiten. Die MoE-Schicht befindet sich im Transformer-Modul. Ihre Funktion besteht darin, das Forward Network (FFN) auszuwählen, das sich normalerweise nach der Unterschicht Self-Attention (SA) befindet. Diese Platzierung ist von entscheidender Bedeutung, da mit zunehmendem Modellwachstum auch die Rechenanforderungen des FFN steigen. Beispielsweise befinden sich im PaLM-Modell mit 540 Milliarden Parametern 90 % der Parameter in seiner FFN-Schicht.

In mathematischer Form beschrieben: Jedes Expertennetzwerk ?_? (normalerweise ein lineares – ReLU – lineares Netzwerk) wird durch W_? parametrisiert, das die gleiche Eingabe x empfängt und eine Ausgabe ?_? (x; W_?) generiert. Gleichzeitig erhält ein Gated-Netzwerk G mit Parametern Θ (normalerweise bestehend aus einem linear-ReLU-linear-Softmax-Netzwerk) die Ausgabe G (x; Θ). Entsprechend der Entwurfsmethode der Gating-Funktion kann die MoE-Schicht grob in die folgenden zwei Kategorien unterteilt werden.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Dense MoE

Die dichte gemischte Expertenschicht dient dazu, alle Expertennetzwerke {?_1, ... , ?_?} während jeder Iteration zu aktivieren. Frühe MoE-Studien übernahmen häufig diese Strategie. In jüngster Zeit gab es einige Studien mit dichtem MoE, wie EvoMoE, MoLE, LoRAMoE und DS-MoE. Abbildung 2a zeigt die Struktur der dichten MoE-Schicht. Daher kann die Ausgabe der dichten MoE-Schicht wie folgt ausgedrückt werden:

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

wobei ?(x; Θ) der Gate-Wert vor der Softmax-Operation ist.

Sparse MoE

Obwohl die Vorhersagegenauigkeit von Experten für dichte Mischungen im Allgemeinen höher ist, ist auch ihre Rechenlast sehr hoch.

Um dieses Problem zu lösen, wird in der Arbeit von Shazeer et al. „Outrageously big neural Networks: The sparsely-gated mix-of-experts Layer“ eine sparsely-gated MoE-Schicht eingeführt, die nur das ausgewählte Netzwerk in jeder Weiterleitung aktivieren kann bestehen. Diese Strategie erreicht Sparsity, indem eine gewichtete Summe der Ergebnisse der Top-K-Experten berechnet wird, anstatt die Ergebnisse aller Experten zusammenzufassen. Abbildung 2b zeigt die Struktur einer solchen dünnen MoE-Schicht.

Gemäß dem im obigen Artikel vorgeschlagenen Rahmen kann Gleichung 2.2 geändert werden, um den Sparse-Gating-Mechanismus widerzuspiegeln:

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Erklärung hier: Die Funktion TopK (・, ?) behält nur die ersten k Elemente des ursprünglichen Werts des Vektors bei, während die anderen Elemente auf −∞ gesetzt werden. Darauf folgt eine Softmax-Operation, bei der alle −∞-Terme ungefähr Null werden. Der Hyperparameter k sollte entsprechend der spezifischen Anwendung ausgewählt werden. Das Hinzufügen des Rauschterms R_noise ist eine gängige Strategie zum Training von MoE-Schichten mit geringem Gating, die die Erkundung durch Experten fördert und die Stabilität des MoE-Trainings verbessert.

Obwohl Sparse-Gating G (x; Θ) den Parameterraum des Modells erheblich erweitern kann, ohne den entsprechenden Rechenaufwand zu erhöhen, kann es auch zu Lastausgleichsproblemen führen. Das Lastausgleichsproblem bezieht sich auf die ungleichmäßige Lastverteilung zwischen Experten – einige Experten werden häufig eingesetzt, während andere selten oder gar nicht eingesetzt werden.

Um dieses Problem zu lösen, muss jede MoE-Schicht eine Hilfsverlustfunktion integrieren, deren Aufgabe darin besteht, jede Token-Charge gleichmäßig an jeden Experten zu verteilen. Definieren Sie anhand der Beschreibung der mathematischen Form zunächst einen Abfragestapel mit T Token B = {x_1, x_2, ..., x_?} und N Experten. Dann ist sein zusätzlicher Lastausgleichsverlust definiert als:

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

wobei D_i der Anteil der dem Experten i zugewiesenen Token ist und P_i der Anteil der dem Experten i zugewiesenen Gating-Wahrscheinlichkeit ist. Um sicherzustellen, dass der Stapel gleichmäßig auf die N Experten verteilt wird, sollte die Lastausgleichsverlustfunktion L_{Load-Balancing} minimiert werden. Wenn jedem Experten die gleiche Anzahl an Token D_? = 1/? und die gleiche Gating-Wahrscheinlichkeit P_? = 1/? zugewiesen wird, ist die optimale Bedingung erreicht: .

Im Folgenden bezieht sich der Begriff „MoE“, sofern nicht ausdrücklich anders angegeben, nur auf „sparse MoE“. Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Klassifizierung von Hybridexperten

Um Forschern dabei zu helfen, Ziele in der LLM-Forschung zu finden, die MoE in großer Zahl nutzen, entwickelte das Team eine Reihe von Klassifizierungsmethoden, um diese Modelle nach drei Aspekten zu klassifizieren: Algorithmusdesign, Systemdesign und Anwendungen.

Abbildung 3 zeigt diese Klassifizierungsmethode und einige repräsentative Forschungsergebnisse.

Im Folgenden finden Sie eine umfassende und ausführliche Einführung in jede Kategorie.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven Algorithmusdesign gemischter Experten

Gating-Funktion

Gating-Funktion (auch bekannt als Routing-Funktion oder Router) ist die Grundkomponente aller MoE-Architekturen. Ihre Aufgabe besteht darin, den Einsatz von Expertenberechnungen zu koordinieren und Experten zu kombinieren Ausgabe.

Das Gating kann je nach Verarbeitungsmethode jeder Eingabe in drei Typen unterteilt werden: spärlich, dicht und weich. Der Sparse-Gating-Mechanismus aktiviert einige Experten, der Dense-Gating-Mechanismus aktiviert alle Experten und der Soft-Gating-Mechanismus umfasst vollständig differenzierbare Methoden, einschließlich Eingabe-Token-Fusion und Experten-Fusion. Abbildung 4 veranschaulicht die verschiedenen Gating-Funktionen, die im MoE-Modell verwendet werden. Die Sparse-Gating-Funktion aktiviert ausgewählte Experten bei der Verarbeitung jedes Eingabetokens, was als eine Form der bedingten Berechnung angesehen werden kann.

Die Gating-Funktion kann verschiedene Formen von Gating-Entscheidungen implementieren, z. B. binäre Entscheidungsfindung, spärliche oder kontinuierliche Entscheidungsfindung, zufällige oder deterministische Entscheidungsfindung. Sie wurde eingehend untersucht und kann verschiedene Formen des verstärkenden Lernens und der Umkehrung verwenden Zum Trainieren ausbreiten.

Shazeer et al.s Studie „Unverschämt große neuronale Netze: Die sparsam gesteuerte Mischung aus Expertenschicht“ war Vorreiter bei einer differenzierbaren heuristischen Methode unter Verwendung von Hilfslastausgleichsverlusten, bei der die Ausgabe von Expertenberechnungen gewichtet wird. Dadurch wird Differenzierbarkeit in den Gating-Prozess eingeführt, wodurch die Optimierung der Gating-Funktion durch Gradienten gesteuert werden kann.

Später wurde dieses Paradigma zum vorherrschenden Paradigma im Bereich der MoE-Forschung. Da diese Methode für jedes Eingabetoken einen Experten auswählt, kann sie als tokenselektive Gating-Funktion betrachtet werden.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven Das Folgende sind die Hauptpunkte dieses Abschnitts, Einzelheiten finden Sie im Originalpapier:

Token-selektives Gating

Hilfsverlust für tokenselektives Gating

Token-Expertenkapazität für selektives Gating

Weitere Fortschritte beim tokenselektiven Gating

Nicht trainierbares tokenselektives Gating
Expertenselektives Gating
intensives
Dense MoE Bedeutet, dass alle Experten bei der Verarbeitung jeder Eingabe aktiviert werden .

Obwohl spärliches MoE Effizienzvorteile bietet, begrüßt die Richtung des dichten MoE immer noch Innovationen. Insbesondere die dichte Aktivierung funktioniert gut bei der LoRA-MoE-Feinabstimmung mit relativ geringem Rechenaufwand für LoRA-Experten. Dieser Ansatz ermöglicht eine effiziente und flexible Integration mehrerer LoRAs, um verschiedene nachgelagerte Aufgaben zu erledigen. Dadurch bleiben die generativen Fähigkeiten des ursprünglichen vorab trainierten Modells erhalten, während gleichzeitig die einzigartigen Eigenschaften jedes LoRA für jede Aufgabe erhalten bleiben.

weiche Formel

Für spärliche MoE besteht ein grundlegendes diskretes Optimierungsproblem darin, zu entscheiden, welche geeigneten Experten jedem Token zugewiesen werden sollen. Um eine ausgewogene Expertenbeteiligung sicherzustellen und nicht zugewiesene Token zu minimieren, sind häufig heuristisch unterstützte Verluste erforderlich. Dieses Problem ist besonders wichtig in Szenarien mit Daten außerhalb der Verteilung (z. B. kleine Inferenzbatches, neuartige Eingaben oder Transferlernen).

Ähnlich wie dichtes MoE nutzen auch Soft-MoE-Methoden alle Experten bei der Verarbeitung jeder Eingabe, wodurch die volle Differenzierbarkeit erhalten bleibt und somit die inhärenten Probleme diskreter Expertenauswahlmethoden vermieden werden. Der Unterschied zwischen Soft MoE und Dense MoE besteht darin, dass ersteres den Rechenaufwand durch die gesteuerte und gewichtete Fusion von Eingabe-Tokens oder Experten verringert.

Experten

In diesem Abschnitt wird die Architektur des Expertennetzwerks innerhalb des MoE-Frameworks vorgestellt und die Gating-Funktion diskutiert, die die Aktivierung dieser Experten koordiniert.

Netzwerktypen

Da MoE in die Transformer-Architektur integriert wurde, ersetzt es in diesen Modellen häufig das Forward Network (FFN)-Modul. Normalerweise repliziert jeder Experte in der MoE-Ebene die Architektur des FFN, das er ersetzt.

Dieses Paradigma, FFN als Experte einzusetzen, ist immer noch Mainstream, aber es wurden auch viele Verbesserungen daran vorgenommen.

Hyperparameter

Der Maßstab des spärlichen MoE-Modells wird durch mehrere wichtige Hyperparameter gesteuert, darunter:

Anzahl der Experten pro MoE-Schicht
Größe jedes einzelnen Experten
MoE Wie oft Schichten werden im gesamten Modell platziert

Die Wahl dieser Hyperparameter ist entscheidend, da sie die Leistung und Recheneffizienz des Modells bei verschiedenen Aufgaben tiefgreifend beeinflusst. Daher werden die optimalen Hyperparameter basierend auf den spezifischen Anwendungsanforderungen und der Computerinfrastruktur ausgewählt. Tabelle 2 zeigt einige Konfigurationen von Modellen, die MoE verwenden.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Darüber hinaus listet Tabelle 3 die Anzahl der Parameter und die Benchmark-Leistung einiger neuerer Open-Source-Modelle auf.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Aktivierungsfunktion

Das auf der dichten Transformer-Architektur basierende spärliche MoE-Modell übernimmt eine Aktivierungsfunktion, die den führenden dichten LLMs wie BERT, T5, GPT und LLAMA ähnelt. Die Aktivierungsfunktionen haben sich von ReLU zu fortgeschritteneren Optionen wie GeLU, GeGLU, SwiGLU und mehr weiterentwickelt.

Dieser Trend erstreckt sich auch auf andere Komponenten von MoE-Modellen, die häufig Techniken wie Root Mean Square Layer Normalization (RMSNorm), Grouped Query Attention (GQA) und Rotated Position Embedding (RoPE) beinhalten.

Shared Experts

DeepSpeed-MoE führt auf innovative Weise die Residual-MoE (Residual-MoE)-Architektur ein, bei der jeder Token von einem festen Experten und einem vom Gate ausgewählten Experten verarbeitet wird, wobei jeweils zwei Experten beteiligt sind Die Verarbeitung erfolgt auf jeder Ebene, während die Kommunikationskosten die Top-1-Gating-Methode nicht überschreiten. Dieser Ansatz behandelt den durch Gating ausgewählten MoE-Experten als Fehlerkorrekturhilfe für FFNs mit fester Dichte.

Das in NLLB verwendete bedingte MoE-Routing (CMR/Conditional MoE Routing) verfolgt ebenfalls einen ähnlichen Ansatz und kombiniert die Ausgabe dichter FFN- und MoE-Schichten.

Das Paradigma, das festes FFN und spärliches MoE integriert, wird oft als gemeinsame Experten bezeichnet, wie in Abbildung 5b dargestellt.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Modelle wie DeepSeekMoE, OpenMoE, Qwen1.5-MoE und MoCLE haben dieses Paradigma kürzlich übernommen, was darauf hindeutet, dass es sich zu einer Mainstream-Konfiguration entwickelt. Allerdings verwenden DeepSeekMoE und Qwen1.5-MoE mehrere gemeinsame Experten anstelle eines einzelnen.

Experte für hybride Parameter-effiziente Feinabstimmung

Parameter-effiziente Feinabstimmung (PEFT) ist eine Methode zur Verbesserung der Feinabstimmungseffizienz. Einfach ausgedrückt aktualisiert PEFT bei der Feinabstimmung nur einen kleinen Teil der Parameter des Basismodells.

PEFT ist erfolgreich, aber aufgrund seiner begrenzten trainierbaren Parameter und möglicherweise katastrophaler Vergessensprobleme ist diese Methode in Situationen, in denen eine Verallgemeinerung auf mehrere Aufgaben erforderlich ist, schwierig anzuwenden.

Um diese Einschränkungen zu mildern, wurde Mixed Parameter Efficient Expert (MoPE) geboren, das das MoE-Framework und PEFT integriert. MoPE integriert den Gating-Mechanismus und die Multi-Experten-Architektur von MoE, und jeder Experte wird mithilfe der PEFT-Technologie erstellt. Diese clevere Kombination kann die Leistung von PEFT in Multitasking-Szenarien erheblich verbessern. Da PEFT zum Aufbau von Experten verwendet wird, verwendet MoPE außerdem weniger Parameter und ist viel ressourceneffizienter als das traditionelle MoE-Modell.

MoPE kombiniert die Multitasking-Eigenschaften von MoE und die Ressourceneffizienz von PEFT, einer vielversprechenden Forschungsrichtung. Abbildung 6 klassifiziert MoPEs nach ihrer Position in der Transformer-Modellarchitektur. Eine detailliertere Einführung in die Forschungsergebnisse zu MoPE finden Sie im Originalpapier.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Trainings- und Inferenzlösungen

Hybridexperten machen Fortschritte und entwickeln sich weiter, und auch damit verbundene Trainings- und Inferenzlösungen machen Fortschritte und entwickeln sich weiter.

Die anfängliche Trainings- und Inferenzlösung erfordert das Training des MoE-Modells von Grund auf und die direkte Verwendung der trainierten Modellkonfiguration zur Durchführung der Inferenz.

Aber jetzt sind viele neue Paradigmen beim Training und der Inferenz von MoE-Modellen entstanden, einschließlich der Kombination der Vorteile dichter und spärlicher Modelle, um sich gegenseitig zu ergänzen.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Abbildung 7 zeigt die Trainings- und Inferenzlösungen im Zusammenhang mit MoE. Es ist ersichtlich, dass die entstehenden Lösungen in drei Kategorien unterteilt werden können:

Dicht bis spärlich: beginnend mit einem dichten Modelltraining und allmählichem Übergang zu spärlich MoE-Konfiguration;
Sparse zu Dense: beinhaltet die Herabstufung des spärlichen MoE-Modells in eine dichte Form, was für die Implementierung von Inferenz in eine Hardware-Form von Vorteil ist;
Expertenmodellfusion: Integration mehrerer vorab trainierter dichter Expertenmodelle in ein einheitliches MoE-Modell.

Abgeleitete Technologien von MoE

Mixed Experts (MoE) haben viele verschiedene Variantentechnologien inspiriert. In der Arbeit „Go breiter statt tiefer“ wird beispielsweise WideNet mit einer größeren Modellbreite vorgeschlagen. Die Methode besteht darin, das Vorwärtsnetzwerk (FFN) durch die MoE-Schicht zu ersetzen und gleichzeitig die gemeinsame Trainierbarkeit auf der Transformer-Schicht beizubehalten , mit Ausnahme der Normalisierungsschicht.

Darüber hinaus gibt es SYT (Sparse Universal Transformer), vorgeschlagen von Tan et al., MoT (Hybrid Token), vorgeschlagen von Antoniak et al., SMoP (Sparse Mixed Prompter), vorgeschlagen von Choi et al., und Chen et al. Lebenslanges MoE, MoD (Mischungstiefe), vorgeschlagen von Raposo et al. usw.

Zusammenfassend zeigt die Entwicklung von MoE-abgeleiteten Technologien einen Trend: MoE hat immer mehr Funktionen und ist zunehmend an verschiedene Bereiche anpassbar.

Systemdesign gemischter Experten

Obwohl Mixed Experts (MoE) die Fähigkeiten großer Sprachmodelle verbessern können, bringt es aufgrund seiner geringen und dynamischen Rechenlast auch neue technische Herausforderungen mit sich.

GShard führt Expertenparallelität ein, mit der segmentierte Teil-Token gemäß den Lastausgleichsbeschränkungen der Expertenfähigkeiten geplant werden können, wodurch paralleles Gating und Expertenberechnungen erreicht werden. Dieses Paradigma ist zu einer grundlegenden Strategie zur Förderung einer effizienten Skalierung von MoE-Modellen geworden. Wir können uns diesen Ansatz als eine erweiterte Version der Datenparallelität vorstellen – jeder Experte in der MoE-Schicht wird einem anderen Gerät zugewiesen, während alle Nicht-Experten-Schichten auf allen Geräten dupliziert werden.

Wie in Abbildung 8a dargestellt, besteht der Arbeitsablauf der Expertenparallelisierung darin, die folgenden Vorgänge nacheinander auszuführen: Gate-Routing, Eingabekodierung, All-to-All-Planung, Expertenberechnung, All-to-All-Kombination und Ausgabedekodierung.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Im Allgemeinen muss die Eingabegröße von GEMM groß genug sein, um das Computergerät vollständig auszunutzen. Daher wird die Eingabekodierung verwendet, um die Eingabe-Tokens desselben Experten in einem kontinuierlichen Speicherraum zusammenzufassen, der durch die „Token-Experten-Zuordnung“ im Gate-Routing bestimmt wird. Anschließend besteht die Aufgabe der All-to-All-Planung darin, die Eingabetokens an die entsprechenden Experten auf jedem Gerät zu verteilen. Anschließend werden fachmännische Lokalisierungsberechnungen durchgeführt. Nachdem die Berechnung abgeschlossen ist, wird sie durch eine All-to-All-Kombination zusammengefasst, dann wird die Ausgabe dekodiert und das Layout der Originaldaten wird gemäß dem Gating-Index wiederhergestellt.

Darüber hinaus untersuchen einige Forscher die Synergie zwischen Expertenparallelität und anderen bestehenden Parallelstrategien (wie Tensoren, Pipelines, Sequenzparallelisierung), um die Skalierbarkeit und Effizienz von MoE-Modellen in großen verteilten Umgebungen zu verbessern.

Einige hybride Parallelisierungsbeispiele sind in Abbildung 8 aufgeführt, darunter (b) Daten + Experte + Tensor-Parallelisierung, (c) Daten + Experte + Pipeline-Parallelisierung, (d) Experte + Tensor-Parallelisierung.

Man muss sich darüber im Klaren sein, dass es eine komplexe Wechselwirkung zwischen Recheneffizienz, Kommunikationslast und Speichernutzung gibt. Die Wahl der verteilten Parallelisierungsstrategie wird sich darauf auswirken und auch von unterschiedlichen Hardwarekonfigurationen beeinflusst werden. Daher müssen bei der Umsetzung von Strategien für praktische Anwendungen sorgfältige Kompromisse eingegangen und Anpassungen an bestimmte Szenarien vorgenommen werden.

Danach stellte das Team die Systemdesign-Herausforderungen vor, mit denen die MoE-Modellentwicklung konfrontiert ist, und die Forschungsergebnisse zur Lösung dieser Probleme in drei Hauptabschnitten: Computer, Kommunikation und Speicherung. Einzelheiten finden Sie im Originalpapier. Tabelle 4 gibt einen Überblick über Open-Source-MoE-Frameworks.

Algorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven

Apps für Mixing-Experten

In the field of large language models (LLM) currently dominated by Transformer, the mixed expert (MoE) paradigm is very attractive because it can significantly improve model capabilities without introducing excessive computational requirements to the training and inference stages. This type of technology can significantly improve the performance of LLM on a variety of downstream tasks, and even create some AI applications that surpass human levels.

There are rumors that GPT-4, which is so powerful, may also adopt some kind of MoE architecture-composed of 8 experts with 220 billion parameters, trained on diverse data sets and tasks, and uses a 16 iterations of reasoning process. For more details about this rumor, please refer to the report on this site "The ultimate "reveal": GPT-4 model architecture, training cost, and data set information have been revealed".

So, it’s no surprise that MoE is blossoming in natural language processing, computer vision, recommendation systems, and multi-modal applications.

These applications essentially require the use of conditional calculations to greatly increase the number of parameters of the model to enhance the performance of the model under fixed computing costs, or to implement dynamic expert selection through a gating mechanism to achieve efficient multi-task learning.

The team also introduced representative MoE applications in these different fields, which can help readers understand how to use MoE for specific tasks. See the original paper for details.

Challenges and Opportunities

Hybrid expert, powerful, reducing costs and improving performance. Although the prospects are good, there are still challenges.

In this section, the team sorts out the key challenges related to MoE and points out future research directions that are promising to achieve important results. These challenges and research directions are briefly listed below, and please see the original paper for more details.

Training stability and load balancing
Scalability and communication overhead
Expert specialization and collaboration
Sparse activation and computational efficiency
Generalization and robustness
Interpretability and transparency
Optimal expert architecture
Integration with existing frameworks

Extended reading: MoE related reports

Basic:

Frontier:

Das obige ist der detaillierte Inhalt vonAlgorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!