Maison Périphériques technologiques IA S'étendant directement à l'infini, Google Infini-Transformer met fin au débat sur la longueur du contexte

S'étendant directement à l'infini, Google Infini-Transformer met fin au débat sur la longueur du contexte

Apr 13, 2024 am 08:00 AM
谷歌 产业 内存占用

Je ne sais pas si Gemini 1.5 Pro utilise cette technologie.

Google a fait un autre grand pas et a lancé le modèle Transformer de nouvelle génération, Infini-Transformer.

Infini-Transformer introduit un moyen efficace de faire évoluer les grands modèles de langage (LLM) basés sur Transformer vers des entrées infiniment longues sans augmenter les besoins en mémoire et en calcul. Grâce à cette technologie, les chercheurs ont réussi à augmenter la longueur du contexte d'un modèle 1B à 1 million ; appliqué au modèle 8B, le modèle peut gérer la tâche de résumé de livre de 500 000 octets.

L'architecture Transformer domine le domaine de l'intelligence artificielle générative depuis la publication du document de recherche révolutionnaire « L'attention est tout ce dont vous avez besoin » en 2017. La conception optimisée de Transformer par Google a été relativement fréquente récemment. Il y a quelques jours, ils ont mis à jour l'architecture de Transformer et publié Mixture-of-Depths (MoD), qui a modifié le modèle informatique précédent de Transformer. En quelques jours, Google a publié cette nouvelle étude.

Les chercheurs qui se concentrent sur le domaine de l'IA comprennent tous l'importance de la mémoire. Elle est la pierre angulaire de l'intelligence et peut fournir un calcul efficace pour le LLM. Cependant, Transformer et LLM basé sur Transformer présentent une complexité quadratique à la fois en termes d'utilisation de la mémoire et de temps de calcul en raison des caractéristiques inhérentes du mécanisme d'attention, c'est-à-dire le mécanisme d'attention dans Transformer. Par exemple, pour un modèle de 500 B avec une taille de lot de 512 et une longueur de contexte de 2 048, l'empreinte mémoire de l'état valeur-clé d'attention (KV) est de 3 To. Mais en fait, l'architecture Transformer standard doit parfois étendre le LLM à des séquences plus longues (telles que 1 million de jetons), ce qui entraîne une énorme surcharge de mémoire, et à mesure que la longueur du contexte augmente, le coût de déploiement augmente également.

Sur cette base, Google a introduit une approche efficace, dont l'élément clé est une nouvelle technologie d'attention appelée Infini-attention. Contrairement aux Transformers traditionnels, qui utilisent l'attention locale pour éliminer les anciens fragments et libérer de l'espace mémoire pour les nouveaux fragments. Infini-attention ajoute une mémoire compressée, qui peut stocker les anciens fragments utilisés dans la mémoire compressée. Lors de la sortie, les informations de contexte actuelles et les informations de la mémoire compressée seront agrégées, afin que le modèle puisse récupérer l'historique complet du contexte.

Cette méthode permet à Transformer LLM d'évoluer vers des contextes infiniment longs avec une mémoire limitée et de traiter des entrées extrêmement longues pour les calculs en continu.

Les expériences montrent que la méthode surpasse la ligne de base sur les benchmarks de modélisation de langage à contexte long tout en réduisant les paramètres de mémoire de plus de 100 fois. Le modèle atteint une meilleure perplexité lorsqu'il est entraîné avec une longueur de séquence de 100 000. En outre, l’étude a révélé que le modèle 1B a été affiné sur des instances clés de longueur de séquence de 5K, résolvant ainsi le problème de longueur de 1M. Enfin, l'article montre que le modèle 8B avec Infini-attention a obtenu de nouveaux résultats SOTA sur la tâche de résumé de livre d'une longueur de 500 000 après une pré-formation continue et un ajustement précis des tâches.

Les contributions de cet article sont résumées comme suit :

  • Présente un mécanisme d'attention pratique et puissant Infini-attention - avec une mémoire compressée à long terme et une attention causale locale, qui peut être utilisée efficacement pour modéliser les dépendances contextuelles à long terme et à court terme ;
  • Infini-attention apporte des modifications minimes à l'attention des produits ponctuels à l'échelle standard et est conçu pour prendre en charge la pré-formation continue plug-and-play et l'auto-apprentissage en contexte long. Adaptation ;
  • Cette méthode permet à Transformer LLM de traiter des entrées extrêmement longues via des flux, en s'adaptant à des contextes infiniment longs avec une mémoire et des ressources informatiques limitées. Lien vers l'article H : https://arxiv.org/pdf/2404.07143.pdf
Titre de la thèse : Ne laisser aucun contexte derrière : Transformateurs de contexte infinis efficaces avec Infini-ATENTINTIONSétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte
  • Introduction à la méthode

Infini-attention permet à Transformer LLM de gérer efficacement des entrées infiniment longues avec une empreinte mémoire et un calcul limités. Comme le montre la figure 1 ci-dessous, Infini-attention intègre une mémoire compressée dans le mécanisme d'attention ordinaire et crée des mécanismes d'attention locale masquée et d'attention linéaire à long terme dans un seul bloc Transformer.
Cette modification subtile mais critique de la couche d'attention du Transformer peut étendre la fenêtre contextuelle des LLM existants à des longueurs infinies grâce à un pré-entraînement et un réglage fin continus.

Infini-attention prend tous les états de clé, de valeur et de requête des calculs d'attention standard pour la consolidation et la récupération de la mémoire à long terme, et stocke l'ancien état d'attention KV dans la mémoire compressée. Jetez-les comme le mécanisme d'attention standard.Lors du traitement des séquences suivantes, Infini-attention utilise l'état de requête d'attention pour récupérer les valeurs de la mémoire. Pour calculer la sortie de contexte finale, Infini-attention agrège les valeurs de récupération de mémoire à long terme et le contexte d'attention local.

Comme le montre la figure 2 ci-dessous, l'équipe de recherche a comparé Infini-Transformer et Transformer-XL sur la base d'Infini-attention. Semblable à Transformer-XL, Infini-Transformer fonctionne sur une séquence de segments et calcule le contexte d'attention du produit scalaire causal standard dans chaque segment. Par conséquent, le calcul de l’attention du produit scalaire est local dans un certain sens.
Sétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte
Cependant, l'attention locale ignore l'état d'attention du segment précédent lors du traitement du segment suivant, mais Infini-Transformer réutilise l'ancien état d'attention KV pour conserver l'intégralité de l'historique du contexte via le stockage compressé. Par conséquent, chaque couche d’attention d’Infini-Transformer a un état compressé global et un état local à granularité fine.

Semblable à l'attention multi-têtes (MHA), en plus de l'attention des produits ponctuels, Infini-attention maintient également H mémoires compressées parallèles pour chaque couche d'attention (H est le nombre de têtes d'attention).
Sétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte
Le tableau 1 ci-dessous répertorie l'empreinte de la mémoire contextuelle et la longueur effective du contexte définies par plusieurs modèles en fonction des paramètres du modèle et de la longueur du segment d'entrée. Infini-Transformer prend en charge des fenêtres contextuelles infinies avec une empreinte mémoire limitée.
Sétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte
Expériences

L'étude a évalué le modèle Infini-Transformer sur la modélisation de langage à contexte long, la récupération de blocs de contexte clés de 1 million de longueur et les tâches de résumé de livre de 500 000 longueurs, qui ont une séquence d'entrée longue extrêmement élevée. Pour la modélisation du langage, les chercheurs ont choisi de former le modèle à partir de zéro, tandis que pour les tâches clés et de résumé du livre, les chercheurs ont utilisé une pré-formation continue de LLM pour prouver l'adaptabilité plug-and-play d'Infini-attention dans un contexte long.

Modélisation du langage à contexte long. Les résultats du tableau 2 montrent qu'Infini-Transformer surpasse les références de Transformer-XL et de Memorizing Transformers et stocke 114 fois moins de paramètres par rapport au modèle Memorizing Transformer.
Sétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte
Mission clé. Le tableau 3 montre l'Infini-Transformer affiné sur une entrée de longueur de 5K résolvant la tâche clé jusqu'à une longueur de contexte de 1M. Les jetons d'entrée dans l'expérience variaient de 32 000 à 1 M. Pour chaque sous-ensemble de test, les chercheurs ont contrôlé la position de la clé afin qu'elle soit située près du début, du milieu ou de la fin de la séquence d'entrée. Les expériences rapportent une précision de tir zéro et une précision de réglage fin. Après 400 étapes de réglage fin sur une entrée de longueur 5K, Infini-Transformer résout des tâches jusqu'à 1M de longueur de contexte.
Sétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte
Tâches récapitulatives. Le tableau 4 compare Infini-Transformer avec un modèle d'encodeur-décodeur conçu spécifiquement pour la tâche de récapitulation. Les résultats montrent qu'Infini-Transformer surpasse les meilleurs résultats précédents et atteint un nouveau SOTA sur BookSum en traitant l'intégralité du texte du livre.
Sétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte
Les chercheurs ont également représenté le score Rouge global de la répartition de validation des données BookSum dans la figure 4. La tendance des polylignes montre que les Infini-Transformers améliorent les mesures de performances récapitulatives à mesure que la longueur d'entrée augmente.

Sétendant directement à linfini, Google Infini-Transformer met fin au débat sur la longueur du contexte

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment commenter Deepseek Comment commenter Deepseek Feb 19, 2025 pm 05:42 PM

Deepseek est un puissant outil de récupération d'informations. .

Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Sesame Open Door Exchange Page d'enregistrement de page Enregistrement Gate Trading App The Registration Site Web Feb 28, 2025 am 11:06 AM

Cet article présente le processus d'enregistrement de la version Web de Sesame Open Exchange (GATE.IO) et l'application Gate Trading en détail. Qu'il s'agisse de l'enregistrement Web ou de l'enregistrement de l'application, vous devez visiter le site Web officiel ou l'App Store pour télécharger l'application authentique, puis remplir le nom d'utilisateur, le mot de passe, l'e-mail, le numéro de téléphone mobile et d'autres informations et terminer la vérification des e-mails ou du téléphone mobile.

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Feb 21, 2025 pm 10:57 PM

Pourquoi le lien d'échange de Bybit ne peut-il pas être téléchargé directement et installé? Bybit est un échange de crypto-monnaie qui fournit des services de trading aux utilisateurs. Les applications mobiles de l'échange ne peuvent pas être téléchargées directement via AppStore ou GooglePlay pour les raisons suivantes: 1. La politique de l'App Store empêche Apple et Google d'avoir des exigences strictes sur les types d'applications autorisées dans l'App Store. Les demandes d'échange de crypto-monnaie ne répondent souvent pas à ces exigences car elles impliquent des services financiers et nécessitent des réglementations et des normes de sécurité spécifiques. 2. Conformité des lois et réglementations Dans de nombreux pays, les activités liées aux transactions de crypto-monnaie sont réglementées ou restreintes. Pour se conformer à ces réglementations, l'application ByBit ne peut être utilisée que via des sites Web officiels ou d'autres canaux autorisés

Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Sesame Open Door Trading Platform Download Version mobile Gateio Trading Plateforme de téléchargement Adresse de téléchargement Feb 28, 2025 am 10:51 AM

Il est crucial de choisir un canal formel pour télécharger l'application et d'assurer la sécurité de votre compte.

portail d'enregistrement officiel de Gate.io Exchange portail d'enregistrement officiel de Gate.io Exchange Feb 20, 2025 pm 04:27 PM

Gate.io est un échange de crypto-monnaie de premier plan qui offre une large gamme d'actifs cryptographiques et de paires de trading. Enregistrer Gate.io est très simple. Complétez l'inscription. Avec Gate.io, les utilisateurs peuvent profiter d'une expérience de trading de crypto-monnaie sûre et pratique.

Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Top 10 recommandé pour l'application de trading d'actifs numériques crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Cet article recommande les dix principales plates-formes de trading de crypto-monnaie qui méritent d'être prêtées, notamment Binance, Okx, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi et Xbit décentralisées. Ces plateformes ont leurs propres avantages en termes de quantité de devises de transaction, de type de transaction, de sécurité, de conformité et de fonctionnalités spéciales. Le choix d'une plate-forme appropriée nécessite une considération complète en fonction de votre propre expérience de trading, de votre tolérance au risque et de vos préférences d'investissement. J'espère que cet article vous aide à trouver le meilleur costume pour vous-même

Binance Binance Site officiel Dernière version Portail de connexion Binance Binance Site officiel Dernière version Portail de connexion Feb 21, 2025 pm 05:42 PM

Pour accéder à la dernière version du portail de connexion du site Web de Binance, suivez simplement ces étapes simples. Accédez au site officiel et cliquez sur le bouton "Connectez-vous" dans le coin supérieur droit. Sélectionnez votre méthode de connexion existante. Entrez votre numéro de mobile ou votre mot de passe enregistré et votre mot de passe et complétez l'authentification (telles que le code de vérification mobile ou Google Authenticator). Après une vérification réussie, vous pouvez accéder à la dernière version du portail de connexion du site Web officiel de Binance.

La dernière adresse de téléchargement de Bitget en 2025: étapes pour obtenir l'application officielle La dernière adresse de téléchargement de Bitget en 2025: étapes pour obtenir l'application officielle Feb 25, 2025 pm 02:54 PM

Ce guide fournit des étapes de téléchargement et d'installation détaillées pour l'application officielle Bitget Exchange, adaptée aux systèmes Android et iOS. Le guide intègre les informations de plusieurs sources faisant autorité, y compris le site officiel, l'App Store et Google Play, et met l'accent sur les considérations pendant le téléchargement et la gestion des comptes. Les utilisateurs peuvent télécharger l'application à partir des chaînes officielles, y compris l'App Store, le téléchargement officiel du site Web APK et le saut de site Web officiel, ainsi que des paramètres d'enregistrement, de vérification d'identité et de sécurité. De plus, le guide couvre les questions et considérations fréquemment posées, telles que

See all articles