Maison > Périphériques technologiques > IA > Salesforce XGEN-7B: Un tutoriel étape par étape sur l'utilisation et le réglage fin XGEN-7B

Salesforce XGEN-7B: Un tutoriel étape par étape sur l'utilisation et le réglage fin XGEN-7B

William Shakespeare
Libérer: 2025-03-08 11:44:09
original
131 Les gens l'ont consulté

XGEN-7B de Salesforce: un LLM open-source puissant et compact avec une longueur de contexte 8K

Plusieurs modèles de grande langue (LLMS) de premier plan open source souffrent d'une limitation significative: des fenêtres de contexte court, généralement plafonnées aux jetons 2048. Cela contraste fortement avec des modèles propriétaires comme GPT-3.5 et GPT-4, avec des longueurs de contexte jusqu'à 32 000 jetons. Cette contrainte a un impact fortement sur les performances sur les tâches exigeant une compréhension contextuelle étendue, telle que le résumé, la traduction et la génération de code.

Entrez XGEN-7B de Salesforce. Ce modèle aborde le goulot d'étranglement de la longueur de contexte, offrant une impressionnante fenêtre de contexte de 8 000 fois - à quatre fois supérieure aux alternatives open source comparables. Cet article explore les caractéristiques clés de XGen-7B, l'utilisation et le réglage fin sur un exemple de données.

Pourquoi choisir XGEN-7B?

Les avantages de XGEN-7B s'étendent au-delà de sa longueur de contexte étendue. Ses caractéristiques clés incluent:

Efficacité exceptionnelle: malgré ses 7 milliards de paramètres relativement modestes, XGen-7B offre des performances rivales ou dépassant des modèles beaucoup plus grands. Cette efficacité permet le déploiement sur les machines locales haut de gamme, éliminant le besoin de vastes ressources de cloud computing. Cela le rend accessible à un éventail plus large d'utilisateurs, des chercheurs individuels aux petites entreprises.

Variantes du modèle polyvalent: Salesforce fournit trois variantes XGen-7B pour répondre à divers besoins:

  • xgen-7b-4k-base: un modèle de 4 000 tonneages adapté aux tâches nécessitant un contexte modéré. Licencié sous la licence Apache 2.0.
  • XGEN-7B-8K-base: Le modèle phare de 8 000 tonnes, idéal pour des tâches complexes nécessitant une analyse contextuelle approfondie. Également licencié sous Apache 2.0.
  • xgen-7b- {4k, 8k} -inst: ajusté fin pour les applications interactives et pédagogiques (utilisation non commerciale). Parfait pour les outils éducatifs et les chatbots.

Performance de référence supérieure: xgen-7b surpasse constamment les modèles de taille similaire sur divers repères, y compris MMLU et Humaneval. Reportez-vous à l'annonce officielle des résultats détaillés de référence.

Optimisé pour les longues séquences: L'architecture de XGen-7b est spécifiquement optimisée pour les tâches à longue séquence. Ceci est crucial pour des applications telles que le résumé détaillé des documents et la réponse complète aux questions, où la compréhension de l'ensemble des entrées est essentielle pour les sorties précises et cohérentes.

Salesforce XGEN-7B Méthodologie de formation

Les capacités impressionnantes de XGEN-7B découlent de son processus de formation sophistiqué:

  • Étape 1: Formation sur 1,37 billion de jetons de données et de données de code naturels mixtes. Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B
  • Étape 2: Une formation supplémentaire sur 55 milliards de jetons de données de code pour améliorer les capacités de génération de code. Salesforce XGen-7B: A Step-by-Step Tutorial on Using And Fine-Tuning XGen-7B

La bibliothèque JaxFormer de Salesforce de la formation, conçue pour une formation LLM efficace sur le matériel TPU-V4.

Configuration et exécution XGEN-7B

L'exécution de XGen-7B nécessite localement une machine puissante (32 Go de RAM, GPU haut de gamme). Alternativement, des services comme Google Colab Pro proposent des ressources suffisantes.

Installation:

Après avoir configuré votre environnement, installez les bibliothèques nécessaires:

pip install torch torchvision torchaudio transformers[torch] accelerate peft bitsandbytes trl datasets --upgrade
Copier après la connexion

Exécution initiale:

Cet extrait de code montre une exécution de base en utilisant le modèle à 8K:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)

inputs = tokenizer("DataCamp is one he ...", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)

print(tokenizer.decode(sample[0]))
Copier après la connexion

Fonction de fin xGen-7b

Fonction d'adaptation XGEN-7B implique plusieurs étapes (les instructions détaillées sont omises par la concision, mais le texte d'origine fournit un guide complet):

  1. Installation (déjà couverte ci-dessus).
  2. Importer des modules nécessaires (de datasets, transformers, peft, trl).
  3. Définir les configurations pour les modèles de base et de réglage fin.
  4. Chargez l'ensemble de données (par exemple, ensemble de données Guanaco Llama2).
  5. Définir les paramètres de quantification en utilisant BitsAndBytesConfig.
  6. Chargez le modèle et le tokenizer.
  7. Définissez les paramètres PEFT en utilisant LoraConfig.
  8. Définir les arguments de formation en utilisant TrainingArguments.
  9. affiner le modèle en utilisant SFTTrainer.
  10. Évaluer le modèle affiné.
  11. Enregistrez le modèle et le tokenizer affinés.

Conclusion

Bien que simples à utiliser, l'adaptation de XGen-7b à des tâches spécifiques nécessite une attention particulière des ensembles de données et des ressources de calcul. Le processus de réglage fin, comme indiqué ci-dessus, fournit un cadre robuste pour adapter ce puissant LLM à vos besoins spécifiques. N'oubliez pas de consulter les liens fournis pour des explications et des ressources plus détaillées sur les LLM et les techniques de réglage fin.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal