Les modèles de langage grand (LLMS) excellent, mais leur mécanisme d'attention Softmax présente un goulot d'étranglement de calcul. Cet article explore des alternatives pour atteindre la complexité du temps linéaire.
En supposant la familiarité avec les LLM comme Chatgpt et Transformers, nous nous concentrons sur l'attention, le cœur de ces modèles. Contrairement aux RNN, qui compressent les états passés dans un vecteur caché, l'attention récupère sélectivement les données passées pertinentes pour chaque nouvelle requête. Les transformateurs utilisent la clé (k), la requête (q) et la valeur (v) intégrés. Le mécanisme d'attention correspond aux requêtes contre les clés pour récupérer les valeurs:
SoftMax convertit les scores de similitude en probabilités, similaires aux voisins les plus milleurs.
Le coût de calcul d'une seule couche d'attention est:
La complexité quadratique (O (n²)) de Softmax devient prohibitive pour les séquences longues (n & gt; & gt; 100k).
Attention linéaire, proposée par Katharopoulos et al., Réécrit intelligemment le softmax exponentiel en tant que fonction du noyau, permettant un calcul linéaire. La transformation est indiquée ci-dessous:
La fonction
elu(x) 1
se rapproche de l'exponentiel. Le coût de calcul devient:
Ceci est linéaire (o (nd²)) lorsque n & gt; & gt; & gt; D, un scénario commun dans les LLM. Une vue récurrente est:
SoftMax empêche cette linéarisation. Pendant le décodage, seul S (n-1) a besoin de suivi, ce qui entraîne O (d²) par jeton. Cependant, la taille fixe s (n-1) limite la rétention de contexte.
L'attention linéaire fermée aborde la limitation de la mémoire en conservant sélectivement les informations. Le changement clé réside dans la formulation de S_N:
Diverses fonctions de déclenchement (g) existent, chacune conduisant à différents modèles:
La dépendance de la fonction de déclenchement uniquement sur le jeton actuel permet un traitement parallèle efficace.
Les modèles d'espace d'état (SSMS) offrent une perspective différente, traitant des séquences comme les images de processus CNNS. Le modèle est un système invariant linéaire discret:
Cela concerne la convolution comme suit:
H3 utilise deux couches SSM complémentaires:
Les paramètres fixes de SSMS limitent l'adaptabilité. Les SSM sélectifs abordent cela en rendant le système dépendant des données:
Mamba utilise des SSM sélectifs avec la déclenchement et la convolution de la sortie:
Cet article retrace l'évolution de la modélisation efficace des séquences, mettant en évidence le compromis entre l'efficacité de calcul et la capacité de la mémoire. La complexité quadratique de Softmax contraste avec l'efficacité de l'attention linéaire, mais la mémoire limitée de ce dernier conduit à l'attention linéaire et aux SSM. La progression vers les modèles dépendants des données (attention linéaire fermée et SSM sélective) souligne l'importance de la rétention d'adaptation à l'information. Une lecture plus approfondie est suggérée dans les articles cités.
Références:
Katharopoulos et al. (2020) , Yang et al. (2023) , Fu et al. (2022) , gu & dao (2023) , Waleffe et al. (2024) . (Remarque: les citations complètes sont omises pour la concision mais sont disponibles dans l'entrée d'origine.)
REMERCIEMENTS: (La section de reconnaissance reste inchangée.)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!