GEMMA DU TUNE

Jennifer Aniston
Libérer: 2025-03-05 10:01:10
original
411 Les gens l'ont consulté

Ce didacticiel démontre le modèle Gemma 2 de Google raffiné sur un ensemble de données de conversation patient-doctorant et le déploiement pour une utilisation hors ligne. Nous couvrirons la préparation du modèle, le réglage fin avec LORA, la fusion du modèle, la quantification et le déploiement local avec la demande Jan.

Fine-Tuning Gemma 2 and Using it Locally

Comprendre Gemma 2

GEMMA 2, le dernier modèle de grande langue (LLM) de Google, propose des versions de paramètres 9B et 27B sous une licence permissive. Son architecture améliorée fournit une inférence plus rapide sur divers matériel, intégrant de manière transparente avec les transformateurs de visage étreintes, Jax, Pytorch et TensorFlow. Des caractéristiques de sécurité améliorées et des outils de déploiement d'IA éthiques sont également inclus.

Fine-Tuning Gemma 2 and Using it Locally

Accéder et exécuter Gemma 2

Cette section détaille le téléchargement et l'exécution de l'inférence avec la quantification 4 bits (nécessaire à l'efficacité de la mémoire sur le matériel des consommateurs).

  1. Installer les packages: installer bitsandbytes, transformers, et accelerate.

  2. Authentification du visage étreint: Utilisez un jeton de visage étreint (obtenu à partir de votre compte de visage étreint) pour authentifier.

  3. Modèle de chargement et tokenzer: Chargez le modèle google/gemma-2-9b-it en utilisant la quantification 4 bits et la cartographie appropriée de l'appareil.

  4. Inférence: Créer une invite, la tokenize, générer une réponse et la décoder.

Fine-Tuning Gemma 2 and Using it Locally

Fine-Tuning Gemma 2 and Using it Locally

GEMMA FIEUX 2 AVEC LORA

Cette section vous guide à travers le réglage fin GEMMA 2 sur un ensemble de données de soins de santé à l'aide de LORA (adaptation de faible rang) pour une formation efficace.

  1. Configuration: Installez les packages requis (transformers, datasets, accelerate, peft, trl, bitsandbytes, wandb). Authentifiez avec le visage et les poids et les préjugés étreintes.

  2. Chargement du modèle et du tokenzer: Chargez Gemma 2 (9b-it) avec la quantification 4 bits, ajustant le type de données et la mise en œuvre de l'attention en fonction de vos capacités de GPU. Configurer les paramètres LORA.

  3. Chargement de l'ensemble de données: Charge et prétraitez l'ensemble de données lavita/ChatDoctor-HealthCareMagic-100k, créant un format de chat adapté au modèle.

  4. Formation: Définir les arguments de formation (ajustez les hyperparamètres au besoin) et former le modèle en utilisant le SFTTrainer. Surveiller les progrès de l'entraînement avec les poids et les biais.

Fine-Tuning Gemma 2 and Using it Locally

Fine-Tuning Gemma 2 and Using it Locally

  1. Évaluation: terminer les poids et les biais exécutés pour générer un rapport d'évaluation.

  2. Enregistrer le modèle: Enregistrez localement l'adaptateur LORA réglé et poussez-le vers le moyeu de face étreint.

Fine-Tuning Gemma 2 and Using it Locally

Fusion de l'adaptateur et du modèle de base

Cette étape fusionne l'adaptateur LORA affiné avec le modèle de base GEMMA 2 pour un seul modèle déployable. Cela se fait sur un processeur pour gérer les contraintes de mémoire.

  1. Configuration: Créez un nouveau ordinateur portable (basé sur CPU), installez les packages nécessaires et authentifiez avec un visage étreint.

  2. Charger et fusionner: Chargez le modèle de base et l'adaptateur enregistré, puis les fusionner en utilisant PeftModel.merge_and_unload().

  3. Enregistrer et pousser: Enregistrez le modèle fusionné et le tokenizer localement et poussez-les vers le moyeu de face étreint.

Fine-Tuning Gemma 2 and Using it Locally

Quantification avec l'espace facial étreint

Utilisez le GGUF My Repo Emming Face Space pour convertir et quantifier facilement le modèle au format GGUF pour un déploiement local optimal.

Fine-Tuning Gemma 2 and Using it Locally

en utilisant localement le modèle affiné avec Jan

  1. Télécharger et installer l'application Jan.

  2. Téléchargez le modèle quantifié à partir du Hub Face Hub.

  3. Chargez le modèle en janvier, ajustez les paramètres (séquences d'arrêt, pénalités, jetons max, instructions) et interagir avec le modèle affiné.

Fine-Tuning Gemma 2 and Using it Locally

Conclusion

Ce tutoriel fournit un guide complet pour affiner et déployer Gemma 2. N'oubliez pas d'ajuster les hyperparamètres et les paramètres en fonction de votre matériel et de votre ensemble de données. Envisagez d'explorer Keras 3 pour une formation et une inférence potentiellement plus rapides.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal