Maison Périphériques technologiques IA Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Apr 18, 2024 pm 03:40 PM
git meta 工程 arrangement

Après Google, Meta vient aussi rouler des contextes infiniment longs.

La complexité quadratique et la faible extrapolation de longueur des Transformers limitent leur capacité à s'adapter à de longues séquences. Bien que des solutions quadratiques telles que les modèles d'attention linéaire et d'espace d'état existent, d'après l'expérience passée, elles fonctionnent mal en termes d'efficacité de pré-entraînement. et la précision des tâches en aval.

Récemment, Infini-Transformer proposé par Google a attiré l'attention des gens en introduisant une méthode efficace qui peut étendre les grands modèles de langage (LLM) basés sur Transformer à des entrées infiniment longues sans augmenter les besoins de stockage et de calcul.

Presque au même moment, Meta proposait également une technologie de texte infiniment long.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

  • Adresse de l'article : https://arxiv.org/pdf/2404.08801.pdf

  • Titre de l'article : MEGALODON : Pré-entraînement et inférence LLM efficaces avec une longueur de contexte illimitée

  • Code : https:/ /github.com/XuezheMax/megalodon

Dans un article soumis le 12 avril, des institutions de Meta, de l'Université de Californie du Sud, de la CMU, de l'UCSD et d'autres institutions ont présenté MEGALODON, un réseau neuronal pour une modélisation efficace des séquences et de la longueur du contexte. n'est pas limité.

MEGALODON développe davantage la structure de MEGA (Exponential Moving Average with Gated Attention) et introduit une variété de composants techniques pour améliorer ses capacités et sa stabilité, notamment la moyenne mobile exponentielle complexe (CEMA), la couche de normalisation du pas de temps, le mécanisme d'attention normalisé et le pré -connexion résiduelle normalisée avec deux fonctionnalités.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

En comparaison directe avec LAMA2, MEGALODON atteint une meilleure efficacité que Transformer à une échelle de 7 milliards de paramètres et 2 000 milliards de jetons d'entraînement. La perte d'entraînement de MEGALODON atteint 1,70, soit entre LAMA2-7B (1,75) et 13B (1,67). Les améliorations de MEGALODON par rapport à Transformers montrent de solides performances sur une gamme de tests de performances et sur différentes tâches et modalités.

MEGALODON est essentiellement une architecture MEGA améliorée (Ma et al., 2023), qui utilise le mécanisme d'attention fermée et la méthode classique de moyenne mobile exponentielle (EMA). Afin d'améliorer encore les capacités et l'efficacité de MEGALODON dans le cadre d'une pré-formation à grande échelle en contexte long, les auteurs ont proposé une variété de composants techniques. Premièrement, MEGALODON introduit un composant de moyenne mobile exponentielle complexe (CEMA) qui étend l'EMA amortie multidimensionnelle dans MEGA au domaine complexe. Deuxièmement, MEGALODON propose une couche de normalisation par pas de temps, qui généralise les couches de normalisation de groupe aux tâches de modélisation de séquence autorégressive pour permettre la normalisation le long de la dimension séquentielle.

Afin d'améliorer la stabilité du pré-entraînement à grande échelle, MEGALODON propose en outre une attention normalisée, ainsi qu'une pré-normalisation avec une configuration résiduelle à deux sauts en modifiant les méthodes de pré-normalisation et de post-normalisation largement adoptées. En découpant simplement la séquence d'entrée en morceaux fixes, comme cela est fait dans MEGA-chunk, MEGALODON atteint une complexité de calcul et de mémoire linéaire dans la formation et l'inférence de modèles.

Dans une comparaison directe avec LAMA2, tout en contrôlant les données et les calculs, MEGALODON-7B surpasse considérablement la variante de pointe du Transformer utilisée pour entraîner LLAMA2-7B en termes de perplexité d'entraînement. Les évaluations sur la modélisation de contextes longs, y compris la perplexité dans diverses longueurs de contexte allant jusqu'à 2 M et les tâches d'assurance qualité à contexte long dans Scrolls, démontrent la capacité de MEGALODON à modéliser des séquences de longueur infinie. Des résultats expérimentaux supplémentaires sur des benchmarks de petite et moyenne taille, notamment LRA, ImageNet, Speech Commands, WikiText-103 et PG19, démontrent les capacités de MEGALODON en termes de volume et de multimodalité.

Introduction à la méthode

Tout d'abord, l'article passe brièvement en revue les composants clés de l'architecture MEGA (Moving Average Equipé Gated Attention) et aborde les problèmes existant dans MEGA.

MEGA intègre un composant EMA (moyenne mobile exponentielle) dans le calcul de la matrice d'attention pour intégrer un biais inductif sur toutes les dimensions du pas de temps. Plus précisément, l'EMA amorti multidimensionnel élargit d'abord chaque dimension de la séquence d'entrée. La forme est la suivante : Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Pour réduire la complexité quadratique du mécanisme d'attention complète, MEGA divise simplement les séquences de requête, de clé et de valeur dans (14-16) en morceaux de longueur c. L'attention de (17) est appliquée à chaque bloc individuellement, ce qui donne une complexité linéaire O (kc^2 ) = O (nc).

Techniquement parlant, la sous-couche EMA de MEGA permet de capturer des informations contextuelles locales à proximité de chaque jeton, atténuant ainsi le problème de perte d'informations dans le contexte au-delà des limites des blocs. Bien que MEGA obtienne des résultats impressionnants, il est confronté aux problèmes suivants :

i) En raison de la puissance d'expression limitée de la sous-couche EMA dans MEGA, les performances de MEGA avec une attention au niveau du bloc sont toujours en retard par rapport à celles de MEGA à pleine attention.

ii) Pour différentes tâches et types de données, il peut y avoir des différences architecturales dans l'architecture MEGA finale, telles que différentes couches de normalisation, modes de normalisation et fonctions d'attention f (・).

iii) Il n'existe aucune preuve empirique que MEGA s'adapte à la pré-formation à grande échelle.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

CEMA : Extension de l'amortissement multidimensionnel EMA au domaine complexe

Pour résoudre les problèmes rencontrés par MEGA, cette recherche propose MEGALODON.

Plus précisément, ils ont proposé de manière créative la moyenne mobile exponentielle complexe CEMA (moyenne mobile exponentielle complexe), en réécrivant l'équation ci-dessus (1) sous la forme suivante :

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

et en paramétrant θ_j dans (2) comme :

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Normalisation du pas de temps

Bien que les performances de la normalisation des couches combinées avec Transformer soient impressionnantes, il est évident que la normalisation des couches ne peut pas réduire directement le long de la dimension spatiale (le décalage de covariable interne est également appelé pas de temps ou dimension de séquence).

Dans MEGALODON, cette étude étend la normalisation de groupe au cas autorégressif en calculant la moyenne et la variance cumulées.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

La figure 2 illustre la normalisation des couches et la normalisation des pas de temps.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Attention normalisée chez MEGALODON

De plus, la recherche propose également un mécanisme d'attention normalisé spécifiquement personnalisé pour MEGA afin d'améliorer sa stabilité. La forme est la suivante :

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Ensuite, l'opération d'attention dans l'équation (17) ci-dessus est modifiée en :

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Pré-norme avec résidu à deux sauts

L'enquête révèle que, L'augmentation de la taille du modèle peut entraîner une instabilité de prénormalisation. La pré-normalisation basée sur le bloc Transformer peut être exprimée comme suit (illustré sur la figure 3 (b)) :

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Dans l'architecture MEGA originale, φ (19) est utilisé pour la connexion résiduelle fermée (21 ) pour atténuer ce problème. Cependant, la porte de mise à jour φ introduit davantage de paramètres de modèle et le problème d'instabilité persiste lorsque la taille du modèle est étendue à 7 milliards. MEGALODON introduit une nouvelle configuration appelée pré-norme avec des résidus à deux sauts, qui réorganise simplement les connexions résiduelles dans chaque bloc, comme le montre la figure 3(c) :

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Expériences

Afin de Évaluant l'évolutivité et l'efficacité de MEGALODON dans la modélisation de séquences à contexte long, cet article étend MEGALODON à une échelle de 7 milliards.

Pré-formation LLM

Afin d'améliorer l'efficacité des données, les chercheurs ont montré la vraisemblance log négative (NLL) de MEGALODON-7B, LAMA2-7B et LAMA2-13B pendant le processus de formation, comme le montre la figure 1.

Avec le même nombre de jetons d'entraînement, MEGALODON-7B a obtenu un NLL nettement meilleur (inférieur) que LLAMA2-7B, montrant une meilleure efficacité des données.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

La figure 4 illustre le WPS moyen (mot/jeton par seconde) par appareil pour LAMA2-7B et MEGALODON-7B en utilisant respectivement des longueurs de contexte de 4K et 32K. Pour le modèle LLAMA2, l'étude utilise Flash-Attention V2 pour accélérer le calcul de la pleine attention. Avec une longueur de contexte 4K, MEGALODON-7B est légèrement plus lent (~ 6 %) que LLAMA2-7B en raison de l'introduction du CEMA et de la normalisation du pas de temps. En étendant la longueur du contexte à 32 Ko, MEGALODON-7B est nettement plus rapide que LAMA2-7B (environ 32 %), ce qui démontre l'efficacité informatique de MEGALODON pour le pré-entraînement à long contexte.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Évaluation contextuelle courte

Le tableau 1 résume les résultats de MEGALODON et LLAMA2 sur des critères académiques, ainsi que les résultats de comparaison d'autres modèles de base open source, notamment MPT, RWKV, Mamba, Mistral et Gemma. Après un pré-entraînement sur les mêmes jetons 2T, MEGALODON-7B surpasse LLAMA2-7B sur tous les benchmarks. Sur certaines tâches, les performances de MEGALODON-7B sont comparables, voire meilleures, à celles de LAMA2-13B.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Évaluation du contexte long

La figure 5 montre la perplexité (PPL) de l'ensemble de données de validation sous différentes longueurs de contexte allant de 4K à 2M. On peut observer que le PPL diminue de façon monotone avec la longueur du contexte, validant l'efficacité et la robustesse de MEGALODON dans la modélisation de séquences extrêmement longues.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Réglage fin des instructions

Le tableau 3 résume les performances du modèle 7B sur MT-Bench. MEGALODON présente des performances supérieures sur MT-Bench par rapport à Vicuna et est comparable à LLAMA2-Chat, qui utilise RLHF pour un réglage plus précis de l'alignement.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Évaluation de référence à moyenne échelle

Pour évaluer les performances de MEGALODON sur les tâches de classification d'images, l'étude a mené des expériences sur l'ensemble de données Imagenet-1K. Le tableau 4 indique la précision Top-1 sur l'ensemble de validation. La précision de MEGALODON est 1,3 % supérieure à celle de DeiT-B et 0,8 % supérieure à celle de MEGA.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Le Tableau 5 illustre la perplexité au niveau des mots (PPL) de MEGALODON sur PG-19 et la comparaison avec les modèles de pointe précédents, notamment Compressive Transformer, Perceiver AR, Perceiver AR, Block Loop Transformer. et MÉGABYTE, etc. Les performances de MEGALODON sont clairement en avance.

Le grand modèle de texte long méta illimité est ici : seulement 7B de paramètres, open source

Veuillez vous référer au document original pour plus de détails.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment installer Deepseek Comment installer Deepseek Feb 19, 2025 pm 05:48 PM

Il existe de nombreuses façons d'installer Deepseek, notamment: Compiler à partir de Source (pour les développeurs expérimentés) en utilisant des packages précompilés (pour les utilisateurs de Windows) à l'aide de conteneurs Docker (pour le plus pratique, pas besoin de s'inquiéter de la compatibilité), quelle que soit la méthode que vous choisissez, veuillez lire Les documents officiels documentent soigneusement et les préparent pleinement à éviter des problèmes inutiles.

Résumé des FAQ pour une utilisation profonde Résumé des FAQ pour une utilisation profonde Feb 19, 2025 pm 03:45 PM

Deepseekai Tool User Guide et FAQ Deepseek est un puissant outil intelligent AI. FAQ: La différence entre les différentes méthodes d'accès: il n'y a pas de différence de fonction entre la version Web, la version de l'application et les appels API, et l'application n'est qu'un wrapper pour la version Web. Le déploiement local utilise un modèle de distillation, qui est légèrement inférieur à la version complète de Deepseek-R1, mais le modèle 32 bits a théoriquement une capacité de version complète de 90%. Qu'est-ce qu'une taverne? SillyTavern est une interface frontale qui nécessite d'appeler le modèle AI via l'API ou le olllama. Qu'est-ce que la limite de rupture

Quelles sont les dix principales plateformes de trading de devises virtuelles? Quelles sont les dix principales plateformes de trading de devises virtuelles? Feb 20, 2025 pm 02:15 PM

Avec la popularité des crypto-monnaies, des plateformes de trading de devises virtuelles ont émergé. Les dix principales plateformes de trading de devises virtuelles au monde sont classées comme suit selon le volume des transactions et la part de marché: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Ces plateformes offrent un large éventail de services, allant d'un large éventail de choix de crypto-monnaie à la négociation des dérivés, adapté aux commerçants de niveaux différents.

Quels sont les outils d'IA ? Quels sont les outils d'IA ? Nov 29, 2024 am 11:11 AM

Les outils d'IA incluent : Doubao, ChatGPT, Gemini, BlenderBot, etc.

Comment ajuster l'échange ouvert en sésame en chinois Comment ajuster l'échange ouvert en sésame en chinois Mar 04, 2025 pm 11:51 PM

Comment ajuster l'échange ouvert en sésame en chinois? Ce didacticiel couvre des étapes détaillées sur les ordinateurs et les téléphones mobiles Android, de la préparation préliminaire aux processus opérationnels, puis à la résolution de problèmes communs, vous aidant à changer facilement l'interface d'échange Open Sesame aux chinois et à démarrer rapidement avec la plate-forme de trading.

Top 10 des plates-formes de trading de crypto-monnaie, les dix principales applications de plate-forme de trading de devises recommandées Top 10 des plates-formes de trading de crypto-monnaie, les dix principales applications de plate-forme de trading de devises recommandées Mar 17, 2025 pm 06:03 PM

Les dix principales plates-formes de trading de crypto-monnaie comprennent: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. BitFinex, 10. Gemini. La sécurité, la liquidité, les frais de traitement, la sélection des devises, l'interface utilisateur et le support client doivent être pris en compte lors du choix d'une plate-forme.

Quelles sont les plates-formes de monnaie numérique sûres et fiables? Quelles sont les plates-formes de monnaie numérique sûres et fiables? Mar 17, 2025 pm 05:42 PM

Une plate-forme de monnaie numérique sûre et fiable: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8. Crypto.com, 9. Bitfinex, 10. Gemini. La sécurité, la liquidité, les frais de traitement, la sélection des devises, l'interface utilisateur et le support client doivent être pris en compte lors du choix d'une plate-forme.

Guide d'enseignement de l'analyse technique: Comportement du prix du juge via K-Line Guide d'enseignement de l'analyse technique: Comportement du prix du juge via K-Line Mar 05, 2025 am 08:54 AM

Table des contenus Introduction (i) Chemin d'apprentissage (ii) Éléments clés du trading de type 1. Interprétation du comportement des prix K-line (i) Concepts de base (ii) Outils d'analyse 2. Analyse du comportement des prix en K: Presser les avantages et inconvénients Avantages et désavantage Stratégies d'adaptation après l'analyse des tendances révolutionnaire Résumé du niveau de support des lignes de tendance et du niveau de pression Le niveau de pression de support des prix clés

See all articles