L'attention linéarisante-IA-php.cn

L'attention linéarisante

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2025-02-25 19:10:11

original

109 Les gens l'ont consulté

Les modèles de langage grand (LLMS) excellent, mais leur mécanisme d'attention Softmax présente un goulot d'étranglement de calcul. Cet article explore des alternatives pour atteindre la complexité du temps linéaire.

Fondamentaux de l'attention

En supposant la familiarité avec les LLM comme Chatgpt et Transformers, nous nous concentrons sur l'attention, le cœur de ces modèles. Contrairement aux RNN, qui compressent les états passés dans un vecteur caché, l'attention récupère sélectivement les données passées pertinentes pour chaque nouvelle requête. Les transformateurs utilisent la clé (k), la requête (q) et la valeur (v) intégrés. Le mécanisme d'attention correspond aux requêtes contre les clés pour récupérer les valeurs:

Linearizing Attention SoftMax convertit les scores de similitude en probabilités, similaires aux voisins les plus milleurs.

Le coût de calcul d'une seule couche d'attention est:

Linearizing Attention La complexité quadratique (O (n²)) de Softmax devient prohibitive pour les séquences longues (n & gt; & gt; 100k).

Attention linéaire: une solution?

Attention linéaire, proposée par Katharopoulos et al., Réécrit intelligemment le softmax exponentiel en tant que fonction du noyau, permettant un calcul linéaire. La transformation est indiquée ci-dessous:

Linearizing Attention La fonction elu(x) 1 se rapproche de l'exponentiel. Le coût de calcul devient:

Linearizing Attention Ceci est linéaire (o (nd²)) lorsque n & gt; & gt; & gt; D, un scénario commun dans les LLM. Une vue récurrente est:

L'inséparabilité de SoftMax

Linearizing Attention SoftMax empêche cette linéarisation. Pendant le décodage, seul S (n-1) a besoin de suivi, ce qui entraîne O (d²) par jeton. Cependant, la taille fixe s (n-1) limite la rétention de contexte.

Attention linéaire fermée: mémoire stratégique

L'attention linéaire fermée aborde la limitation de la mémoire en conservant sélectivement les informations. Le changement clé réside dans la formulation de S_N:

Linearizing Attention Diverses fonctions de déclenchement (g) existent, chacune conduisant à différents modèles:

Linearizing Attention La dépendance de la fonction de déclenchement uniquement sur le jeton actuel permet un traitement parallèle efficace.

Modèles d'espace d'état: une approche convolutionnelle

Les modèles d'espace d'état (SSMS) offrent une perspective différente, traitant des séquences comme les images de processus CNNS. Le modèle est un système invariant linéaire discret:

Linearizing Attention Cela concerne la convolution comme suit:

Linearizing Attention H3 utilise deux couches SSM complémentaires:

Linearizing Attention

Modèles d'espace d'état sélectif: dynamique dépendante des données

Les paramètres fixes de SSMS limitent l'adaptabilité. Les SSM sélectifs abordent cela en rendant le système dépendant des données:

Linearizing Attention Mamba utilise des SSM sélectifs avec la déclenchement et la convolution de la sortie:

Linearizing Attention

Conclusion

Cet article retrace l'évolution de la modélisation efficace des séquences, mettant en évidence le compromis entre l'efficacité de calcul et la capacité de la mémoire. La complexité quadratique de Softmax contraste avec l'efficacité de l'attention linéaire, mais la mémoire limitée de ce dernier conduit à l'attention linéaire et aux SSM. La progression vers les modèles dépendants des données (attention linéaire fermée et SSM sélective) souligne l'importance de la rétention d'adaptation à l'information. Une lecture plus approfondie est suggérée dans les articles cités.

Références:

Katharopoulos et al. (2020) , Yang et al. (2023) , Fu et al. (2022) , gu & dao (2023) , Waleffe et al. (2024) . (Remarque: les citations complètes sont omises pour la concision mais sont disponibles dans l'entrée d'origine.)

REMERCIEMENTS: (La section de reconnaissance reste inchangée.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!