Table des matières
Long Range Arena Benchmark et S4
Défauts de modélisation
Nouveau progrès : Hyena
FFT ou une approche plus basique ?
Maison Périphériques technologiques IA Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons d'abord ce problème

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons d'abord ce problème

May 01, 2023 pm 09:01 PM
ai 模型

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

Au cours des deux dernières années, le laboratoire de recherche Hazy de l'université de Stanford s'est engagé dans un travail important : augmenter la longueur des séquences.

Ils ont un point de vue : des séquences plus longues inaugureront une nouvelle ère de modèles d'apprentissage automatique de base - des modèles capables d'apprendre à partir de contextes plus longs, de sources multimédias multiples, de démonstrations complexes, etc.

Actuellement, cette recherche a fait de nouveaux progrès. Tri Dao et Dan Fu du laboratoire Hazy Research ont dirigé la recherche et la promotion de l'algorithme FlashAttention. Ils ont prouvé qu'une longueur de séquence de 32 Ko est possible et sera largement utilisée dans l'ère actuelle des modèles de base (OpenAI, Microsoft, NVIDIA et d'autres sociétés). les modèles utilisent l’algorithme FlashAttention).

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

La longueur du contexte du modèle de base a augmenté, alors quelle est la prochaine étape ?

  • Adresse papier : https://arxiv.org/abs/2205.14135
  • Adresse code : https://github.com/HazyResearch/flash-attention
Comme le soulignent les informations relatives à GPT4, il autorise près de 50 pages de texte comme contexte et implémente la tokenisation/correction de la même manière que Deepmind Gato utilise les images comme contexte.

Dans cet article, l'auteur présente de nouvelles méthodes pour augmenter la longueur des séquences à un niveau élevé et fournit un « pont » vers un nouvel ensemble de primitives.

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

Les Transformers deviennent plus profonds et plus larges, mais les entraîner sur de longues séquences reste encore difficile. Un problème fondamental rencontré par les chercheurs est que la couche d'attention du Transformer augmente quadratiquement en longueur de séquence : c'est-à-dire qu'en passant de 32 000 à 64 000, le coût augmente non seulement de 2 fois, mais de 4 fois. Par conséquent, cela motive les chercheurs à explorer des modèles de longueur de séquence avec une complexité temporelle linéaire.

Dans le laboratoire Hazy Research, ce travail a commencé avec Hippo, puis S4, H3 et maintenant Hyena. Ces modèles ont le potentiel de gérer des longueurs de contexte se chiffrant en millions, voire en milliards.

FlashAttention accélère l'attention et réduit son empreinte mémoire - sans aucune approximation. « Depuis que nous avons publié FlashAttention il y a 6 mois, nous sommes ravis de voir de nombreuses organisations et laboratoires de recherche adopter FlashAttention pour accélérer leur formation et leur inférence », peut-on lire sur le blog.

FlashAttention est un algorithme qui réorganise les calculs d'attention et exploite des techniques classiques (pavage, recalcul) pour accélérer et réduire l'utilisation de la mémoire de quadratique à linéaire en termes de longueur de séquence. Pour chaque tête d'attention, afin de réduire les lectures/écritures de mémoire, FlashAttention utilise des techniques de mosaïque classiques pour charger les blocs de requêtes, de clés et de valeurs du GPU HBM (sa mémoire principale) vers SRAM (son cache rapide), en calculant l'attention et en réécrivant la sortie dans HBM. Cette réduction des lectures/écritures de mémoire entraîne des accélérations significatives (2 à 4x) dans la plupart des cas.

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

FlashAttention accélère l'attention en réduisant les lectures et écritures de la mémoire GPU.

Ensuite, jetons un coup d'œil aux détails de l'étude.

Long Range Arena Benchmark et S4

Des chercheurs de Google ont lancé le benchmark Long Range Arena (LRA) en 2020 pour évaluer dans quelle mesure différents modèles gèrent les dépendances à longue portée. LRA est capable de tester une gamme de tâches couvrant de nombreux types et modalités de données différents, tels que du texte, des images et des expressions mathématiques, avec des longueurs de séquence allant jusqu'à 16 Ko (Path-X : Classification des images dépliées en pixels sans aucun biais de généralisation spatiale). De nombreux travaux ont été réalisés pour adapter Transformers à des séquences plus longues, mais une grande partie semble sacrifier la précision (comme le montre l'image ci-dessous). Notez la colonne Path-X : toutes les méthodes Transformer et leurs variantes fonctionnent encore moins bien que la supposition aléatoire.

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

Comparez plusieurs variantes de Transformer sur l'ensemble de données LRA et comparez-les avec S4.

Faisons maintenant connaissance avec le S4, qui a été développé sous la houlette d'Albert Gu. Inspiré par les résultats du benchmark LRA, Albert Gu a voulu découvrir comment mieux modéliser les dépendances à long terme. Sur la base de recherches à long terme sur la relation entre les polynômes orthogonaux et les modèles récursifs et convolutifs, il a lancé S4—— Un nouveau modèle de séquence. basé sur des modèles d'espace d'état structurés (SSM).

Le point clé est que la complexité temporelle du SSM lors de l'extension d'une séquence de longueur N à 2N est de Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème, contrairement au mécanisme d'attention, qui augmente au niveau du carré ! S4 modélise avec succès les dépendances à longue portée dans LRA et devient le premier modèle à atteindre des performances supérieures à la moyenne sur Path-X (atteignant désormais une précision de 96,4 % !). Depuis la sortie de S4, de nombreux chercheurs ont développé et innové sur cette base, avec de nouveaux modèles tels que le modèle S5 de l'équipe de Scott Linderman, le DSS d'Ankit Gupta (et le S4D ultérieur du laboratoire Hazy Research), le Liquid-S4 de Hasani et Lechner, etc. Modèle.

De plus, lorsque Hazy Research a sorti FlashAttention, il était déjà possible d'augmenter la longueur de séquence de Transformer. Ils ont également constaté que Transformer atteignait également des performances supérieures sur Path-X (63 %) simplement en augmentant la longueur de la séquence à 16 Ko.

Défauts de modélisation

Mais l'écart de qualité de S4 dans la modélisation du langage atteint 5% de perplexité (pour le contexte, c'est l'écart entre le modèle 125M et le modèle 6.7B). Pour combler cette lacune, les chercheurs ont étudié les langages synthétiques tels que le rappel associatif afin de déterminer quelles propriétés un langage devrait posséder. La conception finale était H3 (Hungry Hungry Hippos) : une nouvelle couche qui empile deux SSM et multiplie leurs sorties avec une porte de multiplication.

En utilisant H3, les chercheurs de Hazy Research ont remplacé presque toutes les couches d'attention dans un transformateur de style GPT et ont pu faire correspondre le transformateur en termes de perplexité et d'évaluation en aval lors de la formation sur 400 milliards de jetons de Pile.

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

Étant donné que la couche H3 est construite sur SSM, sa complexité de calcul augmente également à un rythme de Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème en termes de longueur de séquence. Les deux couches d'attention rendent encore la complexité de l'ensemble du modèle

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème Cette question sera discutée en détail plus tard.

Bien sûr, Hazy Research n'est pas le seul à envisager cette direction : GSS a également découvert que SSM avec des portes peut bien fonctionner avec de l'attention dans la modélisation du langage (cela a inspiré H3), Meta a publié le modèle Mega, il combine également SSM et attention, le modèle BiGS remplace l'attention dans le modèle de style BERT, et RWKV a travaillé sur une approche entièrement en boucle.

Nouveau progrès : Hyena

Sur la base d'une série de travaux antérieurs, les chercheurs de Hazy Research ont été inspirés pour développer une nouvelle architecture : Hyena. Ils ont essayé de se débarrasser des deux dernières couches d’attention dans H3 et d’obtenir un modèle qui croît presque linéairement pour des séquences plus longues. Il s'avère que deux idées simples sont la clé pour trouver la réponse :

  • Chaque SSM peut être considéré comme un filtre convolutif de la même longueur que la séquence d'entrée. Par conséquent, le SSM peut être remplacé par une convolution de taille égale à la séquence d’entrée pour obtenir un modèle plus puissant avec le même effort de calcul. Plus précisément, le filtre convolutif est implicitement paramétré par un autre petit réseau neuronal, s'appuyant sur des méthodes puissantes issues de la littérature sur le domaine neuronal et des travaux sur CKConv/FlexConv. De plus, la convolution peut être calculée en un temps O (NlogN), où N est la longueur de la séquence, obtenant une mise à l'échelle presque linéaire ; le comportement de déclenchement dans
  • H3 peut être résumé comme suit : H3 prend trois projections de l'entrée, et de manière itérative. effectuer des convolutions et appliquer le gate. Dans Hyena, le simple fait d’ajouter plus de projections et plus de portes permet de généraliser à des architectures plus expressives et de combler l’écart avec attention.

Hyena a proposé pour la première fois un modèle de convolution temporelle complètement quasi-linéaire, qui peut correspondre à Transformer sur la perplexité et les tâches en aval, et a obtenu de bons résultats dans les expériences. Et les modèles de petite et moyenne taille ont été formés sur un sous-ensemble de PILE, et leurs performances étaient comparables à celles de Transformer :

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

Avec quelques optimisations (plus ci-dessous), lorsque la longueur de la séquence est de 2K, Hyena Le modèle est légèrement plus lent qu'un Transformer de même taille, mais plus rapide sur des séquences plus longues.

La prochaine chose à considérer est la suivante : dans quelle mesure ces modèles peuvent-ils être généralisés ? Est-il possible de les adapter à la taille réelle de PILE (400 milliards de jetons) ? Que se passerait-il si vous combiniez le meilleur des idées de H3 et de Hyena, et jusqu’où cela pourrait-il aller ?

FFT ou une approche plus basique ?

Dans tous ces modèles, une opération de base commune est la FFT, qui est un moyen efficace de calculer la convolution et ne prend que du temps O (NlogN). Cependant, FFT est mal pris en charge sur le matériel moderne où l'architecture dominante est constituée d'unités de multiplication matricielles spécialisées et de GEMM (par exemple, les cœurs tenseurs sur les GPU NVIDIA).

L'écart d'efficacité peut être comblé en réécrivant la FFT comme une série d'opérations de multiplication matricielle. Les membres de l’équipe de recherche ont atteint cet objectif en utilisant des matrices papillon pour explorer la formation clairsemée. Récemment, les chercheurs de Hazy Research ont exploité cette connexion pour créer des algorithmes de convolution rapides tels que FlashConv et FlashButterfly, en utilisant la décomposition papillon pour transformer les calculs FFT en une série d'opérations de multiplication matricielle.

De plus, des liens plus profonds peuvent être établis en s'appuyant sur des travaux antérieurs : notamment en laissant apprendre ces matrices, ce qui prend également le même temps mais ajoute des paramètres supplémentaires. Les chercheurs ont commencé à explorer ce lien sur quelques petits ensembles de données et ont obtenu de premiers résultats. Nous pouvons clairement voir ce que cette connexion peut apporter (par exemple, comment la rendre adaptée aux modèles de langage) :

Vous souhaitez déplacer la moitié de « A Dream of Red Mansions » dans la zone de saisie ChatGPT ? Résolvons dabord ce problème

Cette extension mérite d'être explorée plus en profondeur : cette extension apprend quel type de conversion et qu'est-ce que ça te permet de faire ? Que se passe-t-il lorsque vous l'appliquez à la modélisation du langage ?

Ce sont des directions passionnantes, et ce qui suivra sera des séquences de plus en plus longues et de nouvelles architectures qui nous permettront d'explorer davantage ce nouveau domaine. Nous devons accorder une attention particulière aux applications qui peuvent bénéficier de modèles de séquences longues, telles que l'imagerie haute résolution, les nouveaux formats de données, les modèles de langage capables de lire des livres entiers, etc. Imaginez donner un livre entier à un modèle de langage à lire et lui faire résumer le scénario, ou demander à un modèle de génération de code de générer un nouveau code basé sur le code que vous avez écrit. Il y a tellement de scénarios possibles, et ils sont tous très excitants.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment afficher correctement le 'Jingnan Mai Round Body' installé localement sur la page Web? Comment afficher correctement le 'Jingnan Mai Round Body' installé localement sur la page Web? Apr 05, 2025 pm 10:33 PM

En utilisant récemment des fichiers de police installés localement dans les pages Web, j'ai téléchargé une police gratuite à partir d'Internet et je l'ai installée avec succès dans mon système. Maintenant...

Où obtenir le matériel pour la production de pages H5 Où obtenir le matériel pour la production de pages H5 Apr 05, 2025 pm 11:33 PM

Les principales sources de matériel H5 Page sont: 1. Site Web de matériel professionnel (payé, de haute qualité, Copyright clair); 2. Matériel fait maison (unicité élevée, mais qui prend du temps); 3. Bibliothèque de matériaux open source (gratuit, doit être soigneusement dépisté); 4. site Web d'image / vidéo (le droit d'auteur vérifié est requis). De plus, le style de matériau unifié, l'adaptation de la taille, le traitement de la compression et la protection des droits d'auteur sont des points clés auxquels il faut faire attention.

Comment sélectionner un élément enfant avec l'élément de nom de première classe via CSS? Comment sélectionner un élément enfant avec l'élément de nom de première classe via CSS? Apr 05, 2025 pm 11:24 PM

Lorsque le nombre d'éléments n'est pas fixé, comment sélectionner le premier élément enfant du nom de classe spécifié via CSS. Lors du traitement de la structure HTML, vous rencontrez souvent différents éléments ...

La production de pages H5 nécessite-t-elle une maintenance continue? La production de pages H5 nécessite-t-elle une maintenance continue? Apr 05, 2025 pm 11:27 PM

La page H5 doit être maintenue en continu, en raison de facteurs tels que les vulnérabilités du code, la compatibilité des navigateurs, l'optimisation des performances, les mises à jour de sécurité et les améliorations de l'expérience utilisateur. Des méthodes de maintenance efficaces comprennent l'établissement d'un système de test complet, à l'aide d'outils de contrôle de version, de surveiller régulièrement les performances de la page, de collecter les commentaires des utilisateurs et de formuler des plans de maintenance.

Pourquoi les marges négatives ne prennent-elles pas effet dans certains cas? Comment résoudre ce problème? Pourquoi les marges négatives ne prennent-elles pas effet dans certains cas? Comment résoudre ce problème? Apr 05, 2025 pm 10:18 PM

Pourquoi les marges négatives ne prennent-elles pas effet dans certains cas? Pendant la programmation, les marges négatives dans CSS (négatif ...

Quels scénarios d'application conviennent à la production de pages H5 Quels scénarios d'application conviennent à la production de pages H5 Apr 05, 2025 pm 11:36 PM

H5 (HTML5) convient aux applications légères, telles que les pages de campagne de marketing, les pages d'affichage des produits et les micro-Websites de promotion d'entreprise. Ses avantages résident dans la plateformité multi-plateaux et une riche interactivité, mais ses limites résident dans des interactions et des animations complexes, un accès aux ressources locales et des capacités hors ligne.

Comment utiliser l'attribut de forme-extérieur de CSS pour réaliser l'effet d'affichage du raccourcissement progressivement du texte? Comment utiliser l'attribut de forme-extérieur de CSS pour réaliser l'effet d'affichage du raccourcissement progressivement du texte? Apr 05, 2025 pm 10:54 PM

Implémentation de l'effet d'affichage du raccourcissement progressivement du texte dans la conception Web, comment réaliser un effet d'affichage de texte spécial pour faire raccourcir progressivement la longueur du texte? Cet effet ...

Quelle est la raison pour laquelle PS continue de montrer le chargement? Quelle est la raison pour laquelle PS continue de montrer le chargement? Apr 06, 2025 pm 06:39 PM

Les problèmes de «chargement» PS sont causés par des problèmes d'accès aux ressources ou de traitement: la vitesse de lecture du disque dur est lente ou mauvaise: utilisez Crystaldiskinfo pour vérifier la santé du disque dur et remplacer le disque dur problématique. Mémoire insuffisante: améliorez la mémoire pour répondre aux besoins de PS pour les images à haute résolution et le traitement complexe de couche. Les pilotes de la carte graphique sont obsolètes ou corrompues: mettez à jour les pilotes pour optimiser la communication entre le PS et la carte graphique. Les chemins de fichier sont trop longs ou les noms de fichiers ont des caractères spéciaux: utilisez des chemins courts et évitez les caractères spéciaux. Problème du PS: réinstaller ou réparer le programme d'installation PS.

See all articles