En 2023, presque tous les domaines de l’IA évoluent à une vitesse sans précédent. Dans le même temps, l’IA repousse constamment les limites technologiques de domaines clés tels que l’intelligence embarquée et la conduite autonome. Sous la tendance multimodale, Transformer sera-t-il ébranlé en tant qu’architecture dominante pour les grands modèles d’IA ? Pourquoi l'exploration de grands modèles basés sur l'architecture MoE (Mixture of Experts) est-elle devenue une nouvelle tendance dans l'industrie ? Le modèle de grande vision (LVM) peut-il devenir une nouvelle avancée dans la vision générale ? ...Dans la newsletter des membres PRO 2023 de ce site publiée au cours des six derniers mois, nous avons sélectionné 10 interprétations spéciales qui fournissent une analyse approfondie des tendances technologiques et des changements industriels dans les domaines ci-dessus pour vous aider à atteindre vos objectifs dans le nouveau année. Cette interprétation provient du bulletin d'information de l'industrie Week50 2023 ?
Interprétation spéciale Pourquoi les grands modèles basés sur MoE méritent-ils plus d'attention ?Date : 12 décembre
Événement : Mistral AI a open source le modèle Mixtral 8x7B basé sur l'architecture MoE (Mixture-of-Experts, expert blend), et ses performances ont atteint le niveau de Llama 2 70B et de l'événement GPT-3.5" a eu lieu Interprétation étendue.
Tout d'abord, voyons ce qu'est le MoE et ses tenants et aboutissants
1 Concept :
Le MoE (Mixture of Experts) est un modèle hybride composé de plusieurs sous-modèles (c'est-à-dire des experts). , chaque sous-modèle Il s'agit d'un modèle local spécialisé dans le traitement d'un sous-ensemble de l'espace d'entrée. L'idée principale du MoE est d'utiliser un réseau de contrôle pour décider quel modèle doit être formé par chaque donnée, atténuant ainsi les interférences entre. différents types d'échantillons.
2. , Composants principaux :
La technologie de modèle expert mixte (MoE) est une technologie d'apprentissage en profondeur contrôlée par des portes clairsemées composées de modèles experts et de modèles fermés qui réalisent la répartition des tâches/données de formation entre différents. modèles experts via le réseau fermé, permettant à chacun de se concentrer sur les tâches pour lesquelles il est le meilleur, atteignant ainsi la parcimonie du modèle
① Dans la formation du réseau fermé, chaque échantillon sera attribué à un ou plusieurs experts.
② Dans la formation du réseau d'experts, chaque expert sera formé pour minimiser l'erreur des échantillons qui lui sont assignés
3 Le « prédécesseur » du MoE :
Le « prédécesseur » du MoE est Ensemble Learning. . L'apprentissage d'ensemble est le processus de formation de plusieurs modèles (apprenants de base) pour résoudre le même problème et de simple combinaison de leurs prédictions (telles que le vote ou la moyenne). L'objectif principal de l'apprentissage d'ensemble est d'améliorer les performances de prédiction en réduisant le surajustement et en améliorant les capacités de généralisation. Les méthodes courantes d'apprentissage d'ensemble incluent l'ensachage, le boosting et l'empilage.
4. Source historique du MoE :
① Les racines du MoE remontent à l'article de 1991 « Adaptive Mixture of Local Experts ». L'idée est similaire aux approches d'ensemble, dans la mesure où elle vise à fournir un processus de supervision pour un système composé de différents sous-réseaux, chaque réseau individuel ou expert étant spécialisé dans une région différente de l'espace d'entrée. Le poids de chaque expert est déterminé via un réseau sécurisé. Au cours du processus de formation, les experts et les gardiens sont formés.
② Entre 2010 et 2015, deux domaines de recherche différents ont contribué au développement ultérieur du MoE :
L'un est celui des experts en tant que composants : dans une configuration MoE traditionnelle, l'ensemble du système se compose d'un réseau fermé et de plusieurs experts. Les MoE en tant que modèles complets ont été explorés dans des machines à vecteurs de support, des processus gaussiens et d'autres méthodes. L'ouvrage « Learning Factored Representations in a Deep Mixture of Experts » explore la possibilité des MoE en tant que composants de réseaux plus profonds. Cela permet au modèle d’être à la fois volumineux et efficace.
L'autre est le calcul conditionnel : les réseaux traditionnels traitent toutes les données d'entrée à travers chaque couche. Au cours de cette période, Yoshua Bengio a étudié les moyens d'activer ou de désactiver dynamiquement des composants en fonction des jetons d'entrée.
③ En conséquence, les gens ont commencé à explorer des modèles de mélange experts dans le contexte du traitement du langage naturel. Dans l'article « Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer », il a été étendu à un LSTM 137B en introduisant la parcimonie, permettant ainsi un raisonnement rapide à grande échelle.
Pourquoi les grands modèles basés sur le MoE méritent-ils l'attention ?
1. D'une manière générale, l'expansion de l'échelle des modèles entraînera une augmentation significative des coûts de formation, et la limitation des ressources informatiques est devenue un goulot d'étranglement pour la formation intensive de modèles à grande échelle. Pour résoudre ce problème, une architecture de modèle d'apprentissage profond basée sur des couches MoE clairsemées est proposée.
2. Le Sparse Mixed Expert Model (MoE) est une architecture de réseau neuronal spéciale qui peut ajouter des paramètres apprenables aux grands modèles de langage (LLM) sans augmenter le coût de l'inférence, tandis que le réglage des instructions) est une technique permettant d'entraîner le LLM à suivre des instructions. .
3. La combinaison de la technologie de réglage fin des instructions MoE+ peut considérablement améliorer les performances des modèles de langage. En juillet 2023, des chercheurs de Google, de l'UC Berkeley, du MIT et d'autres institutions ont publié l'article « Mixture-of-Experts Meets Instruction Tuning : A Winning Combination for Large Language Models », qui prouvait que le modèle expert hybride (MoE) et le réglage des instructions La combinaison peut considérablement améliorer les performances des grands modèles de langage (LLM).
① Plus précisément, les chercheurs ont utilisé MoE d'activation clairsemée dans un ensemble de modèles experts hybrides clairsemés FLAN-MOE qui ont été affinés par des instructions, et ont remplacé le composant feedforward de la couche Transformer par la couche MoE pour fournir une meilleure capacité de modèle et une meilleure flexibilité de calcul. . performances ; deuxièmement, affiner FLAN-MOE en fonction de l'ensemble de données collectives FLAN.
② Sur la base de la méthode ci-dessus, les chercheurs ont étudié le réglage fin direct sur une seule tâche en aval sans réglage des instructions, la généralisation en contexte à quelques tirs ou à zéro sur la tâche en aval après le réglage des instructions, et dans le réglage des instructions. nous affinons davantage une seule tâche en aval et comparons les différences de performances de LLM dans les trois paramètres expérimentaux.
③ Les résultats expérimentaux montrent que sans l'utilisation du réglage des instructions, les modèles MoE fonctionnent souvent moins bien que les modèles denses avec une puissance de calcul comparable. Mais en combinaison avec le réglage directif, les choses changent. Le modèle MoE basé sur les instructions (Flan-MoE) surpasse le modèle dense plus grand sur plusieurs tâches, même si le modèle MoE n'est qu'un tiers moins coûteux en calcul que le modèle dense. Par rapport aux modèles denses. Les modèles MoE obtiennent des gains de performances plus significatifs grâce au réglage des instructions. Ainsi, lorsque l'efficacité et les performances informatiques sont prises en compte, MoE deviendra un outil puissant pour la formation de modèles de langage à grande échelle.
4. Cette fois, le modèle Mixtral 8x7B sorti utilise également un réseau expert mixte clairsemé.
① Mixtral 8x7B est un modèle uniquement avec décodeur. Le module feedforward sélectionne parmi 8 ensembles de paramètres différents. Dans chaque couche du réseau, pour chaque jeton, le réseau de routeurs sélectionne deux des huit groupes (experts) pour traiter le jeton et regrouper leurs sorties.
② Le modèle Mixtral 8x7B correspond ou surpasse Llama 2 70B et GPT3.5 sur la plupart des benchmarks, avec des vitesses d'inférence 6 fois plus rapides.
Avantages importants du MoE : Qu'est-ce que la parcimonie ?
1. Dans les modèles denses traditionnels, chaque entrée doit être calculée dans le modèle complet. Dans le modèle expert mixte clairsemé, seuls quelques modèles experts sont activés et utilisés lors du traitement des données d'entrée, tandis que la plupart des modèles experts sont dans un état inactif et la parcimonie est un aspect important du modèle expert mixte. Les avantages du modèle sont également la clé pour améliorer l'efficacité des processus de formation et d'inférence du modèle
.Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!