LLM ist sehr stark und um eine nachhaltige Erweiterung des LLM zu erreichen, ist es notwendig, Methoden zu finden und umzusetzen, die seine Effizienz verbessern können. Der Hybridexperte (MoE) ist ein wichtiges Mitglied dieser Art von Methode.
In jüngster Zeit verwenden alle von verschiedenen Technologieunternehmen vorgeschlagenen neuen Generationen großer Modelle die Mixture of Experts (MoE)-Methode.
Das Konzept der Hybridexperten wurde erstmals 1991 in der Arbeit „Adaptive Mischungen lokaler Experten“ geboren. Es wird seit mehr als 30 Jahren umfassend erforscht und weiterentwickelt. In den letzten Jahren hat diese mehr als dreißig Jahre alte Technologie mit dem Aufkommen und der Entwicklung von Sparse-Gated-MoE, insbesondere in Kombination mit großen Sprachmodellen auf Transformer-Basis, neues Leben erhalten.
Das MoE-Framework basiert auf einer einfachen, aber wirkungsvollen Idee: Verschiedene Teile des Modells (sogenannte Experten) konzentrieren sich auf unterschiedliche Aufgaben oder verschiedene Aspekte der Daten.
Wenn dieses Paradigma für eine Eingabe verwendet wird, nehmen nur damit verbundene Experten an der Verarbeitung teil, sodass der Rechenaufwand kontrolliert werden kann und dennoch von einem großen Maß an Fachwissen profitiert wird. Daher kann MoE die Fähigkeiten großer Sprachmodelle verbessern, ohne den Rechenaufwand wesentlich zu erhöhen.
Wie in Abbildung 1 dargestellt, ist die MoE-bezogene Forschung stark gewachsen, insbesondere nach dem Aufkommen von Mixtral-8x7B und verschiedenen LLMs auf industrieller Ebene wie Grok-1, DBRX, Arctic, DeepSeek-V2 usw. im Jahr 2024.
Dieses Bild stammt aus einem kürzlich von einem Forschungsteam der Hong Kong University of Science and Technology (Guangzhou) veröffentlichten MoE-bezogenen Forschungsbericht und schlägt eine neue Klassifizierungsmethode dieser Studien vor werden in drei Kategorien eingeteilt: Algorithmen, Systeme und Anwendungen.
Papiertitel: A Survey on Mixture of Experts
Papieradresse: https://arxiv.org/pdf/2407.06204
Diese Website hat den Hauptinhalt dieses Überprüfungsberichts zusammengestellt. Um den Lesern zu helfen, den aktuellen Entwicklungsüberblick von MoE zu verstehen, lesen Sie bitte das Originalpapier für weitere Details. Darüber hinaus haben wir am Ende des Artikels auch einige MoE-bezogene Berichte zusammengestellt.
Hintergrundwissen von Hybridexperten
In einem Transformer-basierten Large Language Model (LLM) ist die Zusammensetzung jeder Hybridexpertenschicht (MoE) normalerweise ein „Expertennetzwerk“ {?_1, ... , ?_ ?} Gepaart mit einem „Gating-Netzwerk“ G.
Dieses Gating-Netzwerk hat normalerweise die Form eines linearen Netzwerks mit einer Softmax-Aktivierungsfunktion, deren Aufgabe darin besteht, die Eingabe an das entsprechende Expertennetzwerk weiterzuleiten. Die MoE-Schicht befindet sich im Transformer-Modul. Ihre Funktion besteht darin, das Forward Network (FFN) auszuwählen, das sich normalerweise nach der Unterschicht Self-Attention (SA) befindet. Diese Platzierung ist von entscheidender Bedeutung, da mit zunehmendem Modellwachstum auch die Rechenanforderungen des FFN steigen. Beispielsweise befinden sich im PaLM-Modell mit 540 Milliarden Parametern 90 % der Parameter in seiner FFN-Schicht.
In mathematischer Form beschrieben: Jedes Expertennetzwerk ?_? (normalerweise ein lineares – ReLU – lineares Netzwerk) wird durch W_? parametrisiert, das die gleiche Eingabe x empfängt und eine Ausgabe ?_? (x; W_?) generiert. Gleichzeitig erhält ein Gated-Netzwerk G mit Parametern Θ (normalerweise bestehend aus einem linear-ReLU-linear-Softmax-Netzwerk) die Ausgabe G (x; Θ). Entsprechend der Entwurfsmethode der Gating-Funktion kann die MoE-Schicht grob in die folgenden zwei Kategorien unterteilt werden.
Dense MoE
Die dichte gemischte Expertenschicht dient dazu, alle Expertennetzwerke {?_1, ... , ?_?} während jeder Iteration zu aktivieren. Frühe MoE-Studien übernahmen häufig diese Strategie. In jüngster Zeit gab es einige Studien mit dichtem MoE, wie EvoMoE, MoLE, LoRAMoE und DS-MoE. Abbildung 2a zeigt die Struktur der dichten MoE-Schicht. Daher kann die Ausgabe der dichten MoE-Schicht wie folgt ausgedrückt werden:
wobei ?(x; Θ) der Gate-Wert vor der Softmax-Operation ist.
Sparse MoE
Obwohl die Vorhersagegenauigkeit von Experten für dichte Mischungen im Allgemeinen höher ist, ist auch ihre Rechenlast sehr hoch.
Um dieses Problem zu lösen, wird in der Arbeit von Shazeer et al. „Outrageously big neural Networks: The sparsely-gated mix-of-experts Layer“ eine sparsely-gated MoE-Schicht eingeführt, die nur das ausgewählte Netzwerk in jeder Weiterleitung aktivieren kann bestehen. Diese Strategie erreicht Sparsity, indem eine gewichtete Summe der Ergebnisse der Top-K-Experten berechnet wird, anstatt die Ergebnisse aller Experten zusammenzufassen. Abbildung 2b zeigt die Struktur einer solchen dünnen MoE-Schicht.
Gemäß dem im obigen Artikel vorgeschlagenen Rahmen kann Gleichung 2.2 geändert werden, um den Sparse-Gating-Mechanismus widerzuspiegeln:
Erklärung hier: Die Funktion TopK (・, ?) behält nur die ersten k Elemente des ursprünglichen Werts des Vektors bei, während die anderen Elemente auf −∞ gesetzt werden. Darauf folgt eine Softmax-Operation, bei der alle −∞-Terme ungefähr Null werden. Der Hyperparameter k sollte entsprechend der spezifischen Anwendung ausgewählt werden. Das Hinzufügen des Rauschterms R_noise ist eine gängige Strategie zum Training von MoE-Schichten mit geringem Gating, die die Erkundung durch Experten fördert und die Stabilität des MoE-Trainings verbessert.
Obwohl Sparse-Gating G (x; Θ) den Parameterraum des Modells erheblich erweitern kann, ohne den entsprechenden Rechenaufwand zu erhöhen, kann es auch zu Lastausgleichsproblemen führen. Das Lastausgleichsproblem bezieht sich auf die ungleichmäßige Lastverteilung zwischen Experten – einige Experten werden häufig eingesetzt, während andere selten oder gar nicht eingesetzt werden.
Um dieses Problem zu lösen, muss jede MoE-Schicht eine Hilfsverlustfunktion integrieren, deren Aufgabe darin besteht, jede Token-Charge gleichmäßig an jeden Experten zu verteilen. Definieren Sie anhand der Beschreibung der mathematischen Form zunächst einen Abfragestapel mit T Token B = {x_1, x_2, ..., x_?} und N Experten. Dann ist sein zusätzlicher Lastausgleichsverlust definiert als:
wobei D_i der Anteil der dem Experten i zugewiesenen Token ist und P_i der Anteil der dem Experten i zugewiesenen Gating-Wahrscheinlichkeit ist. Um sicherzustellen, dass der Stapel gleichmäßig auf die N Experten verteilt wird, sollte die Lastausgleichsverlustfunktion L_{Load-Balancing} minimiert werden. Wenn jedem Experten die gleiche Anzahl an Token D_? = 1/? und die gleiche Gating-Wahrscheinlichkeit P_? = 1/? zugewiesen wird, ist die optimale Bedingung erreicht: .
Im Folgenden bezieht sich der Begriff „MoE“, sofern nicht ausdrücklich anders angegeben, nur auf „sparse MoE“.
Klassifizierung von Hybridexperten
Um Forschern dabei zu helfen, Ziele in der LLM-Forschung zu finden, die MoE in großer Zahl nutzen, entwickelte das Team eine Reihe von Klassifizierungsmethoden, um diese Modelle nach drei Aspekten zu klassifizieren: Algorithmusdesign, Systemdesign und Anwendungen.Abbildung 3 zeigt diese Klassifizierungsmethode und einige repräsentative Forschungsergebnisse.
Im Folgenden finden Sie eine umfassende und ausführliche Einführung in jede Kategorie.
Algorithmusdesign gemischter Experten
Gating-Funktion
Gating-Funktion (auch bekannt als Routing-Funktion oder Router) ist die Grundkomponente aller MoE-Architekturen. Ihre Aufgabe besteht darin, den Einsatz von Expertenberechnungen zu koordinieren und Experten zu kombinieren Ausgabe.Das Gating kann je nach Verarbeitungsmethode jeder Eingabe in drei Typen unterteilt werden: spärlich, dicht und weich. Der Sparse-Gating-Mechanismus aktiviert einige Experten, der Dense-Gating-Mechanismus aktiviert alle Experten und der Soft-Gating-Mechanismus umfasst vollständig differenzierbare Methoden, einschließlich Eingabe-Token-Fusion und Experten-Fusion. Abbildung 4 veranschaulicht die verschiedenen Gating-Funktionen, die im MoE-Modell verwendet werden. Die Sparse-Gating-Funktion aktiviert ausgewählte Experten bei der Verarbeitung jedes Eingabetokens, was als eine Form der bedingten Berechnung angesehen werden kann.
Die Gating-Funktion kann verschiedene Formen von Gating-Entscheidungen implementieren, z. B. binäre Entscheidungsfindung, spärliche oder kontinuierliche Entscheidungsfindung, zufällige oder deterministische Entscheidungsfindung. Sie wurde eingehend untersucht und kann verschiedene Formen des verstärkenden Lernens und der Umkehrung verwenden Zum Trainieren ausbreiten. Shazeer et al.s Studie „Unverschämt große neuronale Netze: Die sparsam gesteuerte Mischung aus Expertenschicht“ war Vorreiter bei einer differenzierbaren heuristischen Methode unter Verwendung von Hilfslastausgleichsverlusten, bei der die Ausgabe von Expertenberechnungen gewichtet wird. Dadurch wird Differenzierbarkeit in den Gating-Prozess eingeführt, wodurch die Optimierung der Gating-Funktion durch Gradienten gesteuert werden kann. Später wurde dieses Paradigma zum vorherrschenden Paradigma im Bereich der MoE-Forschung. Da diese Methode für jedes Eingabetoken einen Experten auswählt, kann sie als tokenselektive Gating-Funktion betrachtet werden.Das Folgende sind die Hauptpunkte dieses Abschnitts, Einzelheiten finden Sie im Originalpapier:
Token-selektives Gating
Hilfsverlust für tokenselektives Gating
Token-Expertenkapazität für selektives Gating
Weitere Fortschritte beim tokenselektiven Gating
Nicht trainierbares tokenselektives Gating
Expertenselektives Gating
Obwohl spärliches MoE Effizienzvorteile bietet, begrüßt die Richtung des dichten MoE immer noch Innovationen. Insbesondere die dichte Aktivierung funktioniert gut bei der LoRA-MoE-Feinabstimmung mit relativ geringem Rechenaufwand für LoRA-Experten. Dieser Ansatz ermöglicht eine effiziente und flexible Integration mehrerer LoRAs, um verschiedene nachgelagerte Aufgaben zu erledigen. Dadurch bleiben die generativen Fähigkeiten des ursprünglichen vorab trainierten Modells erhalten, während gleichzeitig die einzigartigen Eigenschaften jedes LoRA für jede Aufgabe erhalten bleiben.
weiche Formel
Für spärliche MoE besteht ein grundlegendes diskretes Optimierungsproblem darin, zu entscheiden, welche geeigneten Experten jedem Token zugewiesen werden sollen. Um eine ausgewogene Expertenbeteiligung sicherzustellen und nicht zugewiesene Token zu minimieren, sind häufig heuristisch unterstützte Verluste erforderlich. Dieses Problem ist besonders wichtig in Szenarien mit Daten außerhalb der Verteilung (z. B. kleine Inferenzbatches, neuartige Eingaben oder Transferlernen).
Ähnlich wie dichtes MoE nutzen auch Soft-MoE-Methoden alle Experten bei der Verarbeitung jeder Eingabe, wodurch die volle Differenzierbarkeit erhalten bleibt und somit die inhärenten Probleme diskreter Expertenauswahlmethoden vermieden werden. Der Unterschied zwischen Soft MoE und Dense MoE besteht darin, dass ersteres den Rechenaufwand durch die gesteuerte und gewichtete Fusion von Eingabe-Tokens oder Experten verringert.
Experten
In diesem Abschnitt wird die Architektur des Expertennetzwerks innerhalb des MoE-Frameworks vorgestellt und die Gating-Funktion diskutiert, die die Aktivierung dieser Experten koordiniert.
Netzwerktypen
Da MoE in die Transformer-Architektur integriert wurde, ersetzt es in diesen Modellen häufig das Forward Network (FFN)-Modul. Normalerweise repliziert jeder Experte in der MoE-Ebene die Architektur des FFN, das er ersetzt.
Dieses Paradigma, FFN als Experte einzusetzen, ist immer noch Mainstream, aber es wurden auch viele Verbesserungen daran vorgenommen.
Hyperparameter
Der Maßstab des spärlichen MoE-Modells wird durch mehrere wichtige Hyperparameter gesteuert, darunter:
Anzahl der Experten pro MoE-Schicht
Größe jedes einzelnen Experten
MoE Wie oft Schichten werden im gesamten Modell platziert
Die Wahl dieser Hyperparameter ist entscheidend, da sie die Leistung und Recheneffizienz des Modells bei verschiedenen Aufgaben tiefgreifend beeinflusst. Daher werden die optimalen Hyperparameter basierend auf den spezifischen Anwendungsanforderungen und der Computerinfrastruktur ausgewählt. Tabelle 2 zeigt einige Konfigurationen von Modellen, die MoE verwenden.
Darüber hinaus listet Tabelle 3 die Anzahl der Parameter und die Benchmark-Leistung einiger neuerer Open-Source-Modelle auf.
Aktivierungsfunktion
Das auf der dichten Transformer-Architektur basierende spärliche MoE-Modell übernimmt eine Aktivierungsfunktion, die den führenden dichten LLMs wie BERT, T5, GPT und LLAMA ähnelt. Die Aktivierungsfunktionen haben sich von ReLU zu fortgeschritteneren Optionen wie GeLU, GeGLU, SwiGLU und mehr weiterentwickelt.
Dieser Trend erstreckt sich auch auf andere Komponenten von MoE-Modellen, die häufig Techniken wie Root Mean Square Layer Normalization (RMSNorm), Grouped Query Attention (GQA) und Rotated Position Embedding (RoPE) beinhalten.
Shared Experts
DeepSpeed-MoE führt auf innovative Weise die Residual-MoE (Residual-MoE)-Architektur ein, bei der jeder Token von einem festen Experten und einem vom Gate ausgewählten Experten verarbeitet wird, wobei jeweils zwei Experten beteiligt sind Die Verarbeitung erfolgt auf jeder Ebene, während die Kommunikationskosten die Top-1-Gating-Methode nicht überschreiten. Dieser Ansatz behandelt den durch Gating ausgewählten MoE-Experten als Fehlerkorrekturhilfe für FFNs mit fester Dichte.
Das in NLLB verwendete bedingte MoE-Routing (CMR/Conditional MoE Routing) verfolgt ebenfalls einen ähnlichen Ansatz und kombiniert die Ausgabe dichter FFN- und MoE-Schichten.
Das Paradigma, das festes FFN und spärliches MoE integriert, wird oft als gemeinsame Experten bezeichnet, wie in Abbildung 5b dargestellt.
Modelle wie DeepSeekMoE, OpenMoE, Qwen1.5-MoE und MoCLE haben dieses Paradigma kürzlich übernommen, was darauf hindeutet, dass es sich zu einer Mainstream-Konfiguration entwickelt. Allerdings verwenden DeepSeekMoE und Qwen1.5-MoE mehrere gemeinsame Experten anstelle eines einzelnen.
Experte für hybride Parameter-effiziente Feinabstimmung
Parameter-effiziente Feinabstimmung (PEFT) ist eine Methode zur Verbesserung der Feinabstimmungseffizienz. Einfach ausgedrückt aktualisiert PEFT bei der Feinabstimmung nur einen kleinen Teil der Parameter des Basismodells.
PEFT ist erfolgreich, aber aufgrund seiner begrenzten trainierbaren Parameter und möglicherweise katastrophaler Vergessensprobleme ist diese Methode in Situationen, in denen eine Verallgemeinerung auf mehrere Aufgaben erforderlich ist, schwierig anzuwenden.
Um diese Einschränkungen zu mildern, wurde Mixed Parameter Efficient Expert (MoPE) geboren, das das MoE-Framework und PEFT integriert. MoPE integriert den Gating-Mechanismus und die Multi-Experten-Architektur von MoE, und jeder Experte wird mithilfe der PEFT-Technologie erstellt. Diese clevere Kombination kann die Leistung von PEFT in Multitasking-Szenarien erheblich verbessern. Da PEFT zum Aufbau von Experten verwendet wird, verwendet MoPE außerdem weniger Parameter und ist viel ressourceneffizienter als das traditionelle MoE-Modell.
MoPE kombiniert die Multitasking-Eigenschaften von MoE und die Ressourceneffizienz von PEFT, einer vielversprechenden Forschungsrichtung. Abbildung 6 klassifiziert MoPEs nach ihrer Position in der Transformer-Modellarchitektur. Eine detailliertere Einführung in die Forschungsergebnisse zu MoPE finden Sie im Originalpapier.
Trainings- und Inferenzlösungen
Hybridexperten machen Fortschritte und entwickeln sich weiter, und auch damit verbundene Trainings- und Inferenzlösungen machen Fortschritte und entwickeln sich weiter.
Die anfängliche Trainings- und Inferenzlösung erfordert das Training des MoE-Modells von Grund auf und die direkte Verwendung der trainierten Modellkonfiguration zur Durchführung der Inferenz.
Aber jetzt sind viele neue Paradigmen beim Training und der Inferenz von MoE-Modellen entstanden, einschließlich der Kombination der Vorteile dichter und spärlicher Modelle, um sich gegenseitig zu ergänzen.
Abbildung 7 zeigt die Trainings- und Inferenzlösungen im Zusammenhang mit MoE. Es ist ersichtlich, dass die entstehenden Lösungen in drei Kategorien unterteilt werden können:
Dicht bis spärlich: beginnend mit einem dichten Modelltraining und allmählichem Übergang zu spärlich MoE-Konfiguration;
Sparse zu Dense: beinhaltet die Herabstufung des spärlichen MoE-Modells in eine dichte Form, was für die Implementierung von Inferenz in eine Hardware-Form von Vorteil ist;
Expertenmodellfusion: Integration mehrerer vorab trainierter dichter Expertenmodelle in ein einheitliches MoE-Modell.
Abgeleitete Technologien von MoE
Mixed Experts (MoE) haben viele verschiedene Variantentechnologien inspiriert. In der Arbeit „Go breiter statt tiefer“ wird beispielsweise WideNet mit einer größeren Modellbreite vorgeschlagen. Die Methode besteht darin, das Vorwärtsnetzwerk (FFN) durch die MoE-Schicht zu ersetzen und gleichzeitig die gemeinsame Trainierbarkeit auf der Transformer-Schicht beizubehalten , mit Ausnahme der Normalisierungsschicht.
Darüber hinaus gibt es SYT (Sparse Universal Transformer), vorgeschlagen von Tan et al., MoT (Hybrid Token), vorgeschlagen von Antoniak et al., SMoP (Sparse Mixed Prompter), vorgeschlagen von Choi et al., und Chen et al. Lebenslanges MoE, MoD (Mischungstiefe), vorgeschlagen von Raposo et al. usw.
Zusammenfassend zeigt die Entwicklung von MoE-abgeleiteten Technologien einen Trend: MoE hat immer mehr Funktionen und ist zunehmend an verschiedene Bereiche anpassbar.
Systemdesign gemischter Experten
Obwohl Mixed Experts (MoE) die Fähigkeiten großer Sprachmodelle verbessern können, bringt es aufgrund seiner geringen und dynamischen Rechenlast auch neue technische Herausforderungen mit sich.
GShard führt Expertenparallelität ein, mit der segmentierte Teil-Token gemäß den Lastausgleichsbeschränkungen der Expertenfähigkeiten geplant werden können, wodurch paralleles Gating und Expertenberechnungen erreicht werden. Dieses Paradigma ist zu einer grundlegenden Strategie zur Förderung einer effizienten Skalierung von MoE-Modellen geworden. Wir können uns diesen Ansatz als eine erweiterte Version der Datenparallelität vorstellen – jeder Experte in der MoE-Schicht wird einem anderen Gerät zugewiesen, während alle Nicht-Experten-Schichten auf allen Geräten dupliziert werden.
Wie in Abbildung 8a dargestellt, besteht der Arbeitsablauf der Expertenparallelisierung darin, die folgenden Vorgänge nacheinander auszuführen: Gate-Routing, Eingabekodierung, All-to-All-Planung, Expertenberechnung, All-to-All-Kombination und Ausgabedekodierung.
Im Allgemeinen muss die Eingabegröße von GEMM groß genug sein, um das Computergerät vollständig auszunutzen. Daher wird die Eingabekodierung verwendet, um die Eingabe-Tokens desselben Experten in einem kontinuierlichen Speicherraum zusammenzufassen, der durch die „Token-Experten-Zuordnung“ im Gate-Routing bestimmt wird. Anschließend besteht die Aufgabe der All-to-All-Planung darin, die Eingabetokens an die entsprechenden Experten auf jedem Gerät zu verteilen. Anschließend werden fachmännische Lokalisierungsberechnungen durchgeführt. Nachdem die Berechnung abgeschlossen ist, wird sie durch eine All-to-All-Kombination zusammengefasst, dann wird die Ausgabe dekodiert und das Layout der Originaldaten wird gemäß dem Gating-Index wiederhergestellt.
Darüber hinaus untersuchen einige Forscher die Synergie zwischen Expertenparallelität und anderen bestehenden Parallelstrategien (wie Tensoren, Pipelines, Sequenzparallelisierung), um die Skalierbarkeit und Effizienz von MoE-Modellen in großen verteilten Umgebungen zu verbessern.
Einige hybride Parallelisierungsbeispiele sind in Abbildung 8 aufgeführt, darunter (b) Daten + Experte + Tensor-Parallelisierung, (c) Daten + Experte + Pipeline-Parallelisierung, (d) Experte + Tensor-Parallelisierung.
Man muss sich darüber im Klaren sein, dass es eine komplexe Wechselwirkung zwischen Recheneffizienz, Kommunikationslast und Speichernutzung gibt. Die Wahl der verteilten Parallelisierungsstrategie wird sich darauf auswirken und auch von unterschiedlichen Hardwarekonfigurationen beeinflusst werden. Daher müssen bei der Umsetzung von Strategien für praktische Anwendungen sorgfältige Kompromisse eingegangen und Anpassungen an bestimmte Szenarien vorgenommen werden.
Danach stellte das Team die Systemdesign-Herausforderungen vor, mit denen die MoE-Modellentwicklung konfrontiert ist, und die Forschungsergebnisse zur Lösung dieser Probleme in drei Hauptabschnitten: Computer, Kommunikation und Speicherung. Einzelheiten finden Sie im Originalpapier. Tabelle 4 gibt einen Überblick über Open-Source-MoE-Frameworks.
Apps für Mixing-Experten
In the field of large language models (LLM) currently dominated by Transformer, the mixed expert (MoE) paradigm is very attractive because it can significantly improve model capabilities without introducing excessive computational requirements to the training and inference stages. This type of technology can significantly improve the performance of LLM on a variety of downstream tasks, and even create some AI applications that surpass human levels.
There are rumors that GPT-4, which is so powerful, may also adopt some kind of MoE architecture-composed of 8 experts with 220 billion parameters, trained on diverse data sets and tasks, and uses a 16 iterations of reasoning process. For more details about this rumor, please refer to the report on this site "The ultimate "reveal": GPT-4 model architecture, training cost, and data set information have been revealed".
So, it’s no surprise that MoE is blossoming in natural language processing, computer vision, recommendation systems, and multi-modal applications.
These applications essentially require the use of conditional calculations to greatly increase the number of parameters of the model to enhance the performance of the model under fixed computing costs, or to implement dynamic expert selection through a gating mechanism to achieve efficient multi-task learning.
The team also introduced representative MoE applications in these different fields, which can help readers understand how to use MoE for specific tasks. See the original paper for details.
Challenges and Opportunities
Hybrid expert, powerful, reducing costs and improving performance. Although the prospects are good, there are still challenges.
In this section, the team sorts out the key challenges related to MoE and points out future research directions that are promising to achieve important results. These challenges and research directions are briefly listed below, and please see the original paper for more details.
Training stability and load balancing
Scalability and communication overhead
Expert specialization and collaboration
Sparse activation and computational efficiency
Generalization and robustness
Interpretability and transparency
Optimal expert architecture
Integration with existing frameworks
Extended reading: MoE related reports
Basic:
Frontier:
Single author paper, Google proposed a million expert Mixture, beyond Dense feedforward, sparse MoE
Microsoft lets MoE grow multiple heads, greatly improving the expert activation rate
sparse multi-modal large models, the 3B model MoE-LLaVA is comparable to LLaVA-1.5- 7B
MoE and Mamba have joined forces to expand the state space model to tens of billions of parameters
CVPR 2023 | Modular MoE will become the basic model for visual multi-task learning
Google Gemini 1.5 is launched quickly: MoE architecture, 1 million contexts
8x7B MoE is combined with Flash Attention 2 to achieve fast inference in less than 10 lines of code
Single 4090 inferable, 200 billion sparse large model "Tiangong MoE" open source
A magnet link sweeps AI Circle, 87GB seed directly open source 8x7B MoE model
has more potential than MoE? Is the new path of evolutionary algorithm fusion models worth a try?
One million tokens, super strong MoE model open source, performance close to GPT-4-Turbo
Das obige ist der detaillierte Inhalt vonAlgorithmen, Systeme und Anwendungen, ein umfassendes Verständnis von Hybrid-Experten (MoE) aus drei Perspektiven. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!