Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE

Maison

Périphériques technologiques

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 05, 2024 pm 10:14 PM

产业昆仑万维

Dans la vague des grands modèles, la formation et le déploiement de LLM à ensembles denses de pointe posent d'énormes défis en termes d'exigences informatiques et de coûts associés, en particulier à des échelles de dizaines ou de centaines de milliards de paramètres. Pour relever ces défis, les modèles clairsemés, tels que les modèles Mixture of Experts (MoE), sont devenus de plus en plus importants. Ces modèles offrent une alternative économiquement viable en distribuant le calcul à divers sous-modèles spécialisés, ou « experts », avec le potentiel d'égaler, voire de dépasser, les performances de modèles à ensemble dense avec de très faibles besoins en ressources.

Le 3 juin, une autre nouvelle importante est venue du domaine des grands modèles open source : Kunlun Wanwei a annoncé l'open source du grand modèle clairsemé de 200 milliards Skywork-MoE, qui réduit considérablement le coût d'inférence tout en maintenant de solides performances.

Extendu basé sur le précédent point de contrôle intermédiaire du modèle open source Skywork-13B de Kunlun Wanwei. Il s'agit du premier grand modèle open source de 100 milliards de MoE qui applique et implémente pleinement la technologie MoE Upcycling. un seul serveur 4090, des centaines de milliards de grands modèles MoE.

Ce qui attire davantage l'attention de la grande communauté des modèles, c'est que les poids des modèles et les rapports techniques de Skywork-MoE sont entièrement open source et gratuits pour un usage commercial, aucune application n'est requise.

Adresse de téléchargement du poids du modèle :

￮ https://huggingface.co/Skywork/Skywork-MoE-base

￮ https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

Modèle d'entrepôt open source : https://github.com/SkyworkAI/Skywork-MoE
Modèle de rapport technique : https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe - tech-report.pdf
Code d'inférence de modèle : (prend en charge l'inférence de charge quantifiée 8 bits sur des serveurs 8x4090) https://github.com/SkyworkAI/vllm

Skywork-MoE est actuellement capable de déduire sur Serveurs 8x4090 Le plus grand modèle MoE open source. Le serveur 8x4090 dispose d'un total de 192 Go de mémoire GPU. Sous quantification FP8 (le poids occupe 146 Go), en utilisant la méthode de raisonnement parallèle Tensor Parallel non uniforme mise au point par l'équipe Kunlun Wanwei, Skywork-MoE peut atteindre 2 200 jetons/s dans un délai approprié. taille du lot. Hésitation.

Pour le code complet du cadre d'inférence et l'environnement d'installation associés, veuillez consulter : https://github.com/SkyworkAI/Skywork-MoE

Skywork-MoE Introduction

Ce modèle open source Skywork-MoE appartient à Tiangong La série de modèles R&D 3.0 est le modèle de milieu de gamme (Skywork-MoE-Medium). Le nombre total de paramètres du modèle est de 146B, le nombre de paramètres d'activation est de 22B et il y a 16 experts au total. Chaque taille d'expert est de 13B. , et 2 d'entre eux sont activés à chaque fois.

Il est entendu que Tiangong 3.0 a également formé deux modèles MoE, 75B (Skywork-MoE-Small) et 400B (Skywork-MoE-Large), qui ne sont pas inclus dans cet open source.

Kunlun Wanwei a évalué Skywork-MoE sur la base des listes d'évaluation actuelles des principaux modèles grand public. Avec le même montant de paramètre d'activation de 20B (montant de calcul d'inférence), les capacités de Skywork-MoE sont à la pointe de l'industrie, proches du 70B Dense. modèle. Cela réduit le coût d’inférence du modèle de près de 3 fois.

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

Il convient de noter que la taille totale des paramètres de Skywork-MoE est 1/3 plus petite que celle de DeepSeekV2, permettant d'obtenir des capacités similaires avec une taille de paramètre plus petite.

Innovation technique

Afin de résoudre les problèmes de formation difficile du modèle MoE et de mauvaises performances de généralisation, Skywork-MoE a conçu deux algorithmes d'optimisation de la formation :

Opération de normalisation des logits de Gating

Skywork-MoE dans Gating A new L'opération de normalisation est ajoutée à la logique de distribution de jetons de la couche, ce qui rend l'apprentissage des paramètres de la couche de déclenchement plus incliné vers les 2 meilleurs experts sélectionnés et augmente la confiance du modèle MoE pour les 2 premiers :

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source Adaptatif Aux Loss

est différent de la perte aux traditionnelle avec des coefficients fixes (hyperparamètres fixes). Skywork-MoE permet au modèle de sélectionner de manière adaptative les coefficients d'hyperparamètres de perte aux appropriés à différentes étapes de la formation MoE, maintenant ainsi le taux de chute des jetons dans les limites. intervalle approprié, la répartition des experts peut être équilibrée et l'apprentissage des experts peut être différencié, améliorant ainsi les performances globales et le niveau de généralisation du modèle. Au début de la formation MoE, en raison d'un apprentissage insuffisant des paramètres, le taux de suppression des jetons est trop élevé (la différence de distribution des jetons est trop grande à ce stade, une perte auxiliaire plus importante est nécessaire pour aider à équilibrer la charge des jetons plus tard). étape de la formation MoE, l'équipe Skywork-MoE espère qu'un certain degré de différenciation est toujours assuré entre les experts pour éviter la tendance de Gating à distribuer des jetons de manière aléatoire, une perte aux plus faible est donc nécessaire pour réduire la correction.

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

Training Infra

Comment mener efficacement une formation distribuée à grande échelle des modèles MoE est un défi difficile. Skywork-MoE propose deux conceptions d'optimisation parallèles importantes pour atteindre un débit de formation de 38 % de MFU sur un cluster de kilocalories, où MFU calcule la charge de calcul théorique avec un paramètre d'activation de 22B.

Données expertes parallèles

Différent des conceptions EP (Expert Parallel) et ETP (Expert Tensor Parallel) existantes dans la communauté Megatron-LM, l'équipe Skywork-MoE a proposé une solution de conception parallèle appelée Expert Data Parallel. Cette solution parallèle peut être utilisée dans Expert When the. Le nombre est petit, le modèle peut toujours être segmenté efficacement et la communication all2all introduite par Expert peut également être optimisée et masquée au maximum. Comparé à la limitation d'EP sur le nombre de GPU et à l'inefficacité d'ETP sur les clusters de kilo-cartes, EDP peut mieux résoudre les problèmes parallèles de la formation distribuée à grande échelle du MoE. En même temps, la conception d'EDP est simple, robuste, facile à étendre. et peut être comparé Mise en œuvre et vérification rapides. E Un des exemples EDP les plus simples, TP = 2, EP = 2 dans le cas de deux cartes, dans lequel la partie attention utilise Tensor Parallel, la partie Expert utilise Expert Parallel

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

coupe non uniforme eau parallèle eau parallèle eau En raison du calcul d'intégration de la première étape et du calcul de perte de la dernière étape, ainsi que de l'existence du Pipeline Buffer, il existe un déséquilibre évident entre la charge de calcul et la charge de mémoire vidéo de chaque étape lorsque le La couche est divisée uniformément sous le parallélisme du pipeline. L'équipe Skywork-MoE a proposé une méthode de segmentation parallèle de pipeline non uniforme et d'allocation de couches de recalcul pour équilibrer la charge globale de la mémoire informatique/graphique et améliorer le débit de formation de bout en bout d'environ 10 %.

Comparez les bulles parallèles du pipeline sous segmentation uniforme et segmentation non uniforme : pour un LLM à 24 couches, (a) est divisé uniformément en 4 étapes, et le nombre de couches dans chaque étape est : [ 6 , 6, 6, 6] (b) est une méthode de division non uniforme optimisée, qui est divisée en 5 étapes. Le nombre de couches dans chaque étape est : [5, 5, 5, 5, 4]. l'étage intermédiaire est rempli d'eau courante, les bulles inégalement divisées sont encore plus basses.

Un seul grand modèle clairsemé de 4 090 inférables, 200 milliards, « Tiangong MoE » est open source

De plus, Skywork-MoE a également mené une série d'expériences basées sur la loi de mise à l'échelle pour explorer les contraintes qui affectent les performances des modèles MoE de formation Upcycling et From Scratch.

Une règle empirique qui peut être suivie est la suivante : si les FLOP de l'entraînement du modèle MoE sont plus de 2 fois supérieurs à ceux de l'entraînement du modèle Dense, alors il sera préférable de choisir depuis Scratch pour entraîner le MoE. choisir Upcycling pour former le MoE peut réduire considérablement le coût de la formation.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Où trouver la courte de la grue à atomide atomique

1 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7436

Tutoriel CakePHP

1359

Quel est le format du nom de compte de Steam

Clé d&#39;activation Win11 permanent

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

L'IA utilisée | Le jeu fou Amway AI du président de Microsoft m'a torturé des milliers de fois Aug 14, 2024 am 12:00 AM

Rédacteur du Machine Power Report : Yang Wen La vague d’intelligence artificielle représentée par les grands modèles et l’AIGC a discrètement changé notre façon de vivre et de travailler, mais la plupart des gens ne savent toujours pas comment l’utiliser. C'est pourquoi nous avons lancé la rubrique « AI in Use » pour présenter en détail comment utiliser l'IA à travers des cas d'utilisation de l'intelligence artificielle intuitifs, intéressants et concis et stimuler la réflexion de chacun. Nous invitons également les lecteurs à soumettre des cas d'utilisation innovants et pratiques. Oh mon Dieu, l'IA est vraiment devenue un génie. Récemment, la difficulté de distinguer l’authenticité des images générées par l’IA est devenue un sujet brûlant. (Pour plus de détails, veuillez consulter : IA utilisée | Devenez une beauté de l'IA en trois étapes et retrouvez votre forme originale par l'IA en une seconde) En plus de la populaire dame IA de Google sur Internet, divers générateurs de FLUX ont apparu sur les plateformes sociales

See all articles