LLAMA LINÉATINISATION-IA-php.cn

LLAMA LINÉATINISATION

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2025-02-25 18:38:08

original

163 Les gens l'ont consulté

Cet article explore le remplacement de SoftMax Auto-attension dans le modèle de langue LLAMA-3.2-1B par une approche hybride combinant la fenêtre coulissante Softmax et l'attention linéaire. Cela vise à améliorer la vitesse d'inférence sans perte de précision significative, en réduisant le coût de l'utilisation de modèles de langage importants.

Le projet est basé sur la recherche dans "LOLCATS: sur la linéarisation de faible rang des modèles de grandes langues", "une étude empirique des modèles de langage à base de mamba" et "l'attention linéarisante". Il se concentre sur le remplacement de 50% des couches d'auto-agencement dans un modèle LLAMA pré-formé.

Le processus est divisé en quatre parties:

Bloc d'attention hybride: Cette section détaille la création d'un bloc d'attention personnalisé qui combine des mécanismes de fenêtre coulissants et d'attention linéaire, en utilisant des facteurs apprenables pour équilibrer leurs contributions. L'approche de la fenêtre coulissante limite l'attention à une taille de fenêtre spécifiée, améliorant l'efficacité. L'attention linéaire, appliquée aux jetons antérieurs, optimise davantage le calcul.
Transfert d'attention: Cette étape exploite la méthodologie "lolcats". Les poids des blocs d'attention d'origine LLAMA sont utilisés pour initialiser les blocs hybrides. La formation implique un laissez-passer avant avec une entrée de formation, le calcul de la perte MSE entre les sorties d'origine et le bloc hybride, et affiner les blocs hybrides pour imiter le comportement de l'original.
Lora Finetuning: L'adaptation de faible rang (LORA) est utilisée pour affiner les blocs d'attention hybrides dans le modèle LLAMA plus grand. Cette étape se concentre sur la formation des paramètres des blocs hybrides tout en gardant les autres paramètres gelés, optimisant le modèle de génération de texte à l'aide de l'ensemble de données Dolly-15K.
Évaluation: Les performances du modèle hybride sont évaluées par rapport au modèle LLAMA-3.2-1B d'origine. L'analyse comparative se concentre sur la vitesse d'inférence (jetons par seconde et les secondes par jeton) et la précision (en utilisant la référence MMLU).

Linearizing Llama

Les résultats montrent que le modèle hybride offre des améliorations de vitesse significatives, en particulier pour les séquences plus longues, tout en conservant une précision comparable sur la référence MMLU. Cependant, l'étude met également en évidence l'impact significatif du matériel GPU sur les mesures de vitesse et de précision. Des recherches supplémentaires sont suggérées pour explorer l'impact de différents matériels sur les résultats de référence.

Linearizing Llama

La conclusion souligne le potentiel des mécanismes d'attention hybride comme une approche rentable pour améliorer la vitesse d'inférence LLM. L'étude note également la nécessité d'une optimisation plus approfondie des architectures d'attention linéaire et de l'importance de considérer les limitations matérielles lors de l'évaluation des performances du modèle. Le code de ce projet est disponible sur linéarise-llama-3.2-1b .

Références de licence:

[1] fineweb-edu: odc-by v1.0 [2] Dolly-15k: CC BY-SA 3.0 [3] MMLU: licence MIT

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!