LLM est très fort, et afin de parvenir à une expansion durable du LLM, il est nécessaire de trouver et de mettre en œuvre des méthodes susceptibles d'améliorer son efficacité. L'expert hybride (MoE) est un membre important de ce type de méthode.
Récemment, la nouvelle génération de grands modèles proposés par diverses entreprises technologiques utilisent tous la méthode Mixture of Experts (MoE).
Le concept d'experts hybrides est né pour la première fois dans l'article "Mélanges adaptatifs d'experts locaux" en 1991. Il a été largement exploré et développé depuis plus de 30 ans. Ces dernières années, avec l’émergence et le développement du MoE à portail clairsemé, notamment lorsqu’il est combiné à des modèles de langage à grande échelle basés sur Transformer, cette technologie vieille de plus de trente ans a pris une nouvelle vie.
Le cadre MoE repose sur une idée simple mais puissante : différentes parties du modèle (appelées experts) se concentrent sur différentes tâches ou différents aspects des données.
Lors de l'utilisation de ce paradigme, pour une saisie, seuls les experts qui y sont liés participeront au traitement, afin que le coût de calcul puisse être maîtrisé tout en bénéficiant d'une grande quantité de connaissances professionnelles. Par conséquent, le MoE peut améliorer les capacités des grands modèles de langage sans augmenter considérablement les exigences de calcul.
Comme le montre la figure 1, la recherche liée au MoE s'est fortement développée, en particulier après l'émergence de Mixtral-8x7B et de divers LLM de niveau industriel tels que Grok-1, DBRX, Arctic, DeepSeek-V2, etc. en 2024.
Cette image provient d'un rapport d'examen du MoE récemment publié par une équipe de recherche de l'Université des sciences et technologies de Hong Kong (Guangzhou). Elle résume clairement et de manière exhaustive les recherches liées au MoE et propose une nouvelle méthode de classification de ces études. sont classés en trois catégories : algorithmes, systèmes et applications.
Titre de l'article : A Survey on Mixture of Experts
Adresse de l'article : https://arxiv.org/pdf/2407.06204
Ce site a compilé le contenu principal de ce rapport d'examen. Pour aider les lecteurs à comprendre l’aperçu actuel du développement du MoE, veuillez lire l’article original pour plus de détails. En outre, nous avons également compilé quelques rapports liés au ministère de l’Environnement à la fin de l’article.
Connaissances de base des experts hybrides
Dans un grand modèle de langage (LLM) basé sur Transformer, la composition de chaque couche d'expert hybride (MoE) est généralement un « réseau d'experts » {?_1, ... , ?_ ?} Associé à un "réseau de contrôle" G.
Ce réseau de gate se présente généralement sous la forme d'un réseau linéaire utilisant une fonction d'activation softmax, dont le rôle est de guider l'entrée vers le réseau expert approprié. La couche MoE est placée dans le module Transformer et sa fonction est de sélectionner le réseau de transfert (FFN), généralement situé après la sous-couche d'auto-attention (SA). Ce placement est essentiel car à mesure que le modèle se développe, les exigences de calcul du FFN augmentent. Par exemple, dans le modèle PaLM comportant 540 milliards de paramètres, 90 % des paramètres sont situés dans sa couche FFN.
Décrit sous forme mathématique : Chaque réseau expert ?_? (généralement un réseau linéaire - ReLU - linéaire) est paramétré par W_?, qui reçoit la même entrée x et génère une sortie ?_? (x; W_? ). Dans le même temps, un réseau fermé G avec des paramètres Θ (généralement composé d'un réseau linéaire-ReLU-linéaire-softmax) obtient la sortie G (x; Θ). Selon la méthode de conception de la fonction de déclenchement, la couche MoE peut être grossièrement divisée en deux catégories suivantes.
Dense MoE
La couche experte mixte dense consiste à activer tous les réseaux experts {?_1, ... , ?_?} lors de chaque itération. Les premières études du ministère de l’Environnement ont généralement adopté cette stratégie. Ces derniers temps, des études ont été menées utilisant du MoE dense, tel que EvoMoE, MoLE, LoRAMoE et DS-MoE. La figure 2a donne la structure de la couche dense de MoE. Par conséquent, la sortie de la couche MoE dense peut être exprimée comme suit :
où, ?(x; Θ) est la valeur de la porte avant l'opération softmax.
Sparse MoE
Bien que la précision des prévisions des experts en mélanges denses soit généralement plus élevée, sa charge de calcul est également très élevée.
Afin de résoudre ce problème, l'article de Shazeer et al. "Réseaux de neurones outrageusement grands : la couche de mélange d'experts à portail clairsemé" introduit une couche MoE à portail clairsemé, qui ne peut activer le réseau sélectionné que dans chaque transfert. passer. Cette stratégie atteint la parcimonie en calculant une somme pondérée des résultats des k meilleurs experts, plutôt que de regrouper les résultats de tous les experts. La figure 2b montre la structure d'une couche de MoE aussi clairsemée.
Selon le cadre proposé dans l'article ci-dessus, l'équation 2.2 peut être modifiée pour refléter le mécanisme de déclenchement clairsemé :
Explication ici : La fonction TopK (・, ?) ne conserve que les k premiers éléments de la valeur d'origine du vecteur, tout en définissant les autres éléments sur −∞. Ceci est suivi d'une opération softmax où tous les termes −∞ deviennent approximativement nuls. L'hyperparamètre k doit être sélectionné en fonction de l'application spécifique. Les options courantes sont ? = 1 ou ? L'ajout du terme de bruit R_noise est une stratégie courante pour la formation de couches MoE à grille clairsemée, qui favorise l'exploration parmi les experts et améliore la stabilité de la formation MoE.
Bien que le gating clairsemé G (x; Θ) puisse étendre considérablement l'espace des paramètres du modèle sans augmenter le coût de calcul correspondant, il peut également entraîner des problèmes d'équilibrage de charge. Le problème de l'équilibrage de charge fait référence à la répartition inégale de la charge entre les experts : certains experts sont utilisés fréquemment, tandis que d'autres le sont rarement, voire pas du tout.
Afin de résoudre ce problème, chaque couche MoE doit intégrer une fonction de perte auxiliaire, dont le rôle est d'inciter chaque lot de jetons à être réparti uniformément entre chaque expert. À partir de la description du formulaire mathématique, définissez d'abord un lot de requêtes contenant T tokens B = {x_1, x_2, ..., x_?} et N experts. Ensuite, sa perte d'équilibrage de charge auxiliaire est définie comme :
où D_i est la proportion de jetons attribués à l'expert i, et P_i est la proportion de probabilité de déclenchement attribuée à l'expert i. Pour garantir que le lot est réparti uniformément entre les N experts, la fonction de perte d'équilibrage de charge L_{load-balancing} doit être minimisée. Lorsque chaque expert se voit attribuer le même nombre de jetons D_? = 1/? et la même probabilité de déclenchement P_? = 1/?, la condition optimale est atteinte :
À ce moment, la charge de chaque expert atteint l'équilibre. .
Dans ce qui suit, sauf indication contraire explicite, le terme « MoE » fait uniquement référence au « MoE clairsemé ».
Classification des experts hybrides
Afin d'aider les chercheurs à trouver des cibles dans la recherche LLM qui utilise MoE en grand nombre, l'équipe a développé un ensemble de méthodes de classification pour classer ces modèles selon trois aspects : la conception d'algorithmes, la conception de systèmes et applications.
La figure 3 montre cette méthode de classification et quelques résultats de recherche représentatifs.
Ce qui suit fournira une introduction complète et approfondie à chaque catégorie.
Conception d'algorithmes d'experts mixtes
Fonction Gating
La fonction Gating (également appelée fonction de routage ou routeur) est le composant de base de toutes les architectures MoE. Son rôle est de coordonner l'utilisation des calculs experts et de combiner les experts. Sortir.
Le gate peut être divisé en trois types selon la méthode de traitement de chaque entrée : clairsemé, dense et doux. Le mécanisme de déclenchement clairsemé active certains experts, le mécanisme de déclenchement dense active tous les experts et le mécanisme de déclenchement souple comprend des méthodes complètement différenciables, notamment la fusion de jetons d'entrée et la fusion experte. La figure 4 illustre les différentes fonctions de contrôle utilisées dans le modèle MoE. La fonction de gate clairsemée active des experts sélectionnés lors du traitement de chaque jeton d'entrée, ce qui peut être considéré comme une forme de calcul conditionnel.
La fonction de gating peut mettre en œuvre diverses formes de décisions de gating, telles que la prise de décision binaire, la prise de décision clairsemée ou continue, la prise de décision aléatoire ou déterministe ; elle a été étudiée en profondeur et peut utiliser diverses formes d'apprentissage par renforcement et inverse ; Étalez-vous pour vous entraîner.
L'étude de Shazeer et al. « Réseaux de neurones incroyablement grands : la couche de mélange d'experts à grille clairsemée » a été la pionnière d'une méthode heuristique différenciable utilisant la perte d'équilibrage de charge auxiliaire, dans laquelle le résultat des calculs experts est pondéré. Cela introduit une différentiabilité dans le processus de déclenchement, grâce à quoi l'optimisation de la fonction de déclenchement peut être guidée par des gradients.Bien que le MoE clairsemé présente des avantages en termes d'efficacité, la direction d'un MoE dense reste favorable à l'innovation. En particulier, l’activation dense fonctionne bien pour le réglage fin de LoRA-MoE avec une surcharge de calcul relativement faible pour les experts LoRA. Cette approche permet une intégration efficace et flexible de plusieurs LoRA pour accomplir diverses tâches en aval. Cela préserve les capacités génératives du modèle pré-entraîné d'origine tout en préservant les caractéristiques uniques de chaque LoRA pour chaque tâche.
formule douce
Pour les MoE clairsemés, un problème fondamental d'optimisation discrète est de savoir comment décider quels experts appropriés attribuer à chaque jeton. Pour garantir une participation équilibrée des experts et minimiser les jetons non alloués, cela nécessite souvent des pertes heuristiques. Ce problème est particulièrement important dans les scénarios impliquant des données hors distribution (tels que de petits lots d'inférence, de nouvelles entrées ou un apprentissage par transfert).
Semblables au MoE dense, les méthodes MoE douces font également appel à tous les experts lors du traitement de chaque entrée, conservant ainsi une différentiabilité totale et évitant ainsi les problèmes inhérents aux méthodes de sélection d'experts discrets. La différence entre le MoE souple et le MoE dense est que le premier allège les exigences de calcul grâce à une fusion contrôlée et pondérée de jetons d'entrée ou d'experts.
Experts
Cette section présentera l'architecture du réseau d'experts dans le cadre du MoE et discutera de la fonction de contrôle qui coordonne l'activation de ces experts.
Types de réseau
Depuis que MoE a été intégré à l'architecture du Transformer, il remplace souvent le module de réseau direct (FFN) dans ces modèles. Généralement, chaque expert de la couche MoE reproduit l’architecture du FFN qu’il remplace.
Ce paradigme consistant à utiliser FFN en tant qu'expert est toujours courant, mais les gens y ont également apporté de nombreuses améliorations.
Hyperparamètres
L'échelle du modèle MoE clairsemé est contrôlée par plusieurs hyperparamètres clés, notamment :
Nombre d'experts par couche MoE
Taille de chaque expert
MoE À quelle fréquence les couches sont placées dans tout le modèle
Le choix de ces hyperparamètres est crucial car il affecte profondément les performances et l'efficacité de calcul du modèle dans diverses tâches. Par conséquent, les hyperparamètres optimaux sont sélectionnés en fonction des exigences spécifiques de l’application et de l’infrastructure informatique. Le tableau 2 montre quelques configurations de modèles utilisant MoE.
De plus, le tableau 3 répertorie le nombre de paramètres et les performances de référence de certains modèles open source récents.
Fonction d'activation
Le modèle MoE clairsemé construit sur l'architecture dense du Transformer adopte une fonction d'activation similaire aux principaux LLM denses tels que BERT, T5, GPT et LAMA. Les fonctions d'activation ont évolué de ReLU vers des options plus avancées telles que GeLU, GeGLU, SwiGLU, etc.
Cette tendance s'étend également à d'autres composants des modèles MoE, qui intègrent souvent des techniques telles que la normalisation de la couche quadratique moyenne (RMSNorm), l'attention aux requêtes groupées (GQA) et l'intégration de positions avec rotation (RoPE).
Experts partagés
DeepSpeed-MoE introduit de manière innovante l'architecture Residual-MoE (Residual-MoE), dans laquelle chaque jeton est traité par un expert fixe plus un expert sélectionné par la porte, réalisant chacun Deux experts sont impliqués dans le traitement sur chaque couche, tandis que le coût de communication ne dépassera pas la méthode de contrôle top-1. Cette approche traite l'expert MoE sélectionné comme une aide à la correction d'erreurs pour les FFN denses fixes.
Le routage MoE conditionnel (CMR/Conditional MoE Routing) utilisé dans NLLB adopte également une approche similaire, combinant la sortie de couches denses FFN et MoE.
Le paradigme qui intègre des FFN fixes et des MoE clairsemés est souvent appelé experts partagés, comme le montre la figure 5b.
Des modèles tels que DeepSeekMoE, OpenMoE, Qwen1.5-MoE et MoCLE ont récemment adopté ce paradigme, indiquant qu'il est en train de devenir une configuration courante. Cependant, DeepSeekMoE et Qwen1.5-MoE utilisent plusieurs experts partagés au lieu d'un seul.
Expert en réglage fin hybride efficace aux paramètres
Le réglage fin efficace aux paramètres (PEFT) est une méthode permettant d'améliorer l'efficacité du réglage fin. En termes simples, PEFT ne met à jour qu'une petite partie des paramètres du modèle de base lors du réglage fin.
PEFT est un succès, mais en raison de ses paramètres entraînables limités et de possibles problèmes d'oubli catastrophiques, cette méthode est difficile à utiliser dans des situations où une généralisation à plusieurs tâches est requise.
Pour atténuer ces limitations, Mixed Parameter Efficient Expert (MoPE) est né, qui intègre le framework MoE et PEFT. MoPE intègre le mécanisme de contrôle du MoE et l'architecture multi-experts, et chaque expert est construit à l'aide de la technologie PEFT. Cette combinaison intelligente peut grandement améliorer les performances du PEFT dans des scénarios multitâches. De plus, étant donné que le PEFT est utilisé pour former des experts, le MoPE utilise également moins de paramètres et est beaucoup plus économe en ressources que le modèle traditionnel du MoE.
MoPE combine les caractéristiques multitâches du MoE et l'efficacité des ressources du PEFT, qui est une direction de recherche très prometteuse. La figure 6 classe les MoPE en fonction de leur position dans l'architecture du modèle Transformer. Pour une introduction plus détaillée aux résultats de la recherche sur le MoPE, veuillez vous référer à l'article original.
Solutions de formation et d'inférence
Les experts hybrides progressent et se développent, et les solutions de formation et d'inférence associées progressent et se développent également.
La solution initiale de formation et d'inférence nécessite de former le modèle MoE à partir de zéro et d'utiliser directement la configuration du modèle entraîné pour effectuer l'inférence.
Mais maintenant, de nombreux nouveaux paradigmes ont émergé dans la formation et l'inférence des modèles MoE, notamment la combinaison des avantages des modèles denses et clairsemés pour se compléter.
La figure 7 montre les solutions de formation et d'inférence liées au MoE. On peut voir que les solutions émergentes peuvent être divisées en trois catégories :
Dense à clairsemé : en commençant par une formation de modèle dense et en passant progressivement à clairsemé. Configuration MoE ;
Sparse to dense : implique la rétrogradation du modèle MoE clairsemé vers une forme dense, ce qui est bénéfique pour la mise en œuvre de l'inférence dans une forme matérielle
Fusion de modèles experts : intégration de plusieurs modèles experts denses pré-entraînés dans un modèle unifié du MoE.
Les technologies dérivées du MoE
Les experts mixtes (MoE) ont inspiré de nombreuses variantes technologiques différentes. Par exemple, l'article de Xue et al. « Aller plus loin au lieu de plus profond » propose WideNet avec une largeur de modèle accrue. La méthode consiste à remplacer le réseau direct (FFN) par la couche MoE tout en conservant la capacité d'entraînement partagée sur les paramètres de la couche Transformer. , à l'exception de la couche de normalisation.
De plus, il existe SYT (Sparse Universal Transformer) proposé par Tan et al., MoT (Hybrid Token) proposé par Antoniak et al., SMoP (Sparse Mixed Prompter) proposé par Choi et al., et Chen et al. Lifelong-MoE, MoD (profondeur de mélange) proposé par Raposo et al., etc.
Pour résumer, le développement des technologies dérivées du MoE révèle une tendance : le MoE a de plus en plus de fonctions et est de plus en plus adaptable à différents domaines.
Conception de systèmes d'experts mixtes
Bien que les experts mixtes (MoE) puissent améliorer les capacités des grands modèles de langage, ils apportent également de nouveaux défis techniques en raison de leur charge de calcul clairsemée et dynamique.
GShard introduit le parallélisme expert, qui peut planifier des jetons partiels segmentés en fonction des contraintes d'équilibrage de charge des capacités expertes, réalisant ainsi un déclenchement parallèle et des calculs experts. Ce paradigme est devenu une stratégie fondamentale pour promouvoir une mise à l’échelle efficace des modèles du MoE. Nous pouvons considérer cette approche comme une version améliorée du parallélisme des données : chaque expert de la couche MoE est affecté à un appareil différent, tandis que toutes les couches non expertes sont dupliquées sur tous les appareils.
Comme le montre la figure 8a, le flux de travail de la parallélisation experte consiste à effectuer les opérations suivantes dans l'ordre : routage de porte, codage d'entrée, planification tout-à-tout, calcul expert, combinaison tout-à-tout et décodage de sortie.
De manière générale, la taille d'entrée de GEMM doit être suffisamment grande pour utiliser pleinement le dispositif informatique. Par conséquent, le codage d'entrée est utilisé pour regrouper les jetons d'entrée du même expert dans un espace mémoire continu, qui est déterminé par le « mappage jeton-expert » dans le routage de porte. Ensuite, le rôle de la planification All-to-All est de distribuer les jetons d'entrée aux experts correspondants sur chaque appareil. Ceci est suivi par des calculs de localisation experts. Une fois le calcul terminé, il est résumé via une combinaison tout-à-tout, puis la sortie est décodée et la disposition des données d'origine est restaurée en fonction de l'index de déclenchement.
De plus, certains chercheurs explorent la synergie entre le parallélisme expert et d'autres stratégies parallèles existantes (telles que les tenseurs, les pipelines, la parallélisation de séquences) pour améliorer l'évolutivité et l'efficacité des modèles MoE dans des environnements distribués à grande échelle.
Certains exemples de parallélisation hybride sont donnés dans la figure 8, notamment (b) données + expert + parallélisation tenseur, (c) données + expert + parallélisation pipeline, (d) expert + parallélisation tenseur.
Il est nécessaire de réaliser qu'il existe une interaction complexe entre l'efficacité informatique, la charge de communication et l'utilisation de la mémoire. Le choix de la stratégie de parallélisation distribuée l'affectera et sera également affecté par les différentes configurations matérielles. Par conséquent, lors du déploiement de stratégies destinées à des applications pratiques, des compromis prudents doivent être faits et des ajustements doivent être apportés à des scénarios spécifiques.
Après cela, l'équipe a présenté les défis de conception de systèmes rencontrés par le développement du modèle MoE et les résultats de la recherche pour résoudre ces problèmes dans trois sections principales : informatique, communication et stockage. Veuillez consulter l'article original pour plus de détails. Le tableau 4 donne un aperçu des frameworks MoE open source.
Applications pour les experts en mixage
Im Bereich der großen Sprachmodelle (LLM), der derzeit von Transformer dominiert wird, ist das Mixed-Expert-Paradigma (MoE) sehr attraktiv, da es die Modellfähigkeiten erheblich verbessern kann, ohne übermäßige Rechenanforderungen für die Trainings- und Inferenzphasen mit sich zu bringen. Diese Art von Technologie kann die Leistung von LLM bei einer Vielzahl nachgelagerter Aufgaben erheblich verbessern und sogar einige KI-Anwendungen erstellen, die über das menschliche Niveau hinausgehen.
Es gibt Gerüchte, dass GPT-4, das so leistungsstark ist, möglicherweise auch eine Art MoE-Architektur übernehmen könnte, die aus 8 Experten mit 220 Milliarden Parametern besteht, auf verschiedene Datensätze und Aufgaben geschult ist und einen 16 Iterationen des Argumentationsprozesses verwendet. Weitere Einzelheiten zu diesem Gerücht finden Sie im Bericht auf dieser Website „Die ultimative „Enthüllung“: GPT-4-Modellarchitektur, Trainingskosten und Datensatzinformationen wurden enthüllt“.
Es ist also keine Überraschung, dass MoE in den Bereichen natürliche Sprachverarbeitung, Computer Vision, Empfehlungssysteme und multimodale Anwendungen aufblüht.
Diese Anwendungen erfordern im Wesentlichen die Verwendung von bedingten Berechnungen, um die Anzahl der Parameter des Modells erheblich zu erhöhen, um die Leistung des Modells bei festen Rechenkosten zu verbessern, oder um eine dynamische Expertenauswahl durch einen Gating-Mechanismus zu implementieren, um ein effizientes Multitasking-Lernen zu erreichen .
Das Team stellte außerdem repräsentative MoE-Anwendungen in diesen verschiedenen Bereichen vor, die den Lesern helfen können, zu verstehen, wie MoE für bestimmte Aufgaben verwendet werden kann. Einzelheiten finden Sie im Originalpapier.
Herausforderungen und Chancen
Hybrid-Experten, leistungsstark, Kosten senken, Leistung verbessern. Obwohl die Aussichten gut sind, gibt es immer noch Herausforderungen.
In diesem Abschnitt sortiert das Team die wichtigsten Herausforderungen im Zusammenhang mit MoE und zeigt zukünftige Forschungsrichtungen auf, die wichtige Ergebnisse erwarten lassen. Diese Herausforderungen und Forschungsrichtungen werden im Folgenden kurz aufgeführt. Weitere Einzelheiten finden Sie im Originalpapier.
Trainingsstabilität und Lastausgleich
Skalierbarkeit und Kommunikationsaufwand
Expertenspezialisierung und Zusammenarbeit
Sparsame Aktivierung und Recheneffizienz
Generalisierung und Robustheit
Interpretierbarkeit und Transparenz
Optimale Expertenarchitektur
Integration mit vorhandenen Frameworks
Erweiterte Lektüre: MoE-bezogene Berichte
Grundlagen:
Frontier:
Microsoft lässt MoE mehrere Köpfe wachsen, was die Expertenaktivierungsrate erheblich verbessert
spärliche multimodale große Modelle, das 3B-Modell MoE-LLaVA ist vergleichbar mit LLaVA- 1,5- 7B
Google Gemini 1.5 kommt schnell auf den Markt: MoE-Architektur, 1 Million Kontexte
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!