Feinabstimmungslama 3.2 und lokal verwenden: eine Schritt-für-Schritt-Anleitung-KI-php.cn

Entsperren Sie die Kraft von Lama 3.2: Ein umfassender Leitfaden für Feinabstimmungen und lokale Bereitstellung

Die Landschaft großer Sprachmodelle (LLMs) entwickelt sich schnell weiter und konzentriert sich auf kleinere, effizientere Modelle. Lama 3.2 mit seinen Leicht- und Sehmodellschwankungen veranschaulicht diesen Trend. In diesem Tutorial wird beschrieben, wie die Funktionen von LLAMA 3.2, insbesondere das 3B-Leichtgewichtsmodell, für die Feinabstimmung in einem Datensatz für Kundensupport und anschließende lokale Bereitstellung mithilfe der Jan-Anwendung.

Bevor Sie eintauchen, werden Anfänger dringend ermutigt, einen KI -Grundlagenkurs abzuschließen, um die Grundlagen von LLMs und generativen AI zu erfassen.

Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide

Bild von Autor

Lama 3.2 -Modelle erforschen

llama 3.2 bietet zwei Modellfamilien: Leicht und Vision. Leichte Modelle exponieren bei mehrsprachigen Textgenerierung und -werkzeuggebrauch, ideal für ressourcenbezogene Umgebungen. Vision -Modelle hingegen spezialisiert sich auf Bildminenation und multimodale Aufgaben.

Leichte Modelle

Die leichte Familie umfasst 1B- und 3B -Parametervarianten. Ihre kompakte Größe ermöglicht die Verarbeitung von On-Geräten, um Datenschutz und schnelle, kostengünstige Textgenerierung zu gewährleisten. Diese Modelle nutzen die Beschneidung und Wissensdestillation für Effizienz und Leistung. Das 3B-Modell übertrifft Wettbewerber wie Gemma 2 und PHI 3,5-mini bei Aufgaben wie Anweisungen und Zusammenfassung.

Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide

Quelle: Lama 3.2: Revolutionierung von Edge AI und Vision mit offenen, anpassbaren Modellen

Vision Modelle

Die Visionsmodelle (11B- und 90B -Parameter) sind für das Bildminimieren ausgelegt, die Dokumente und Diagramme interpretieren können. Ihre multimodalen Funktionen beruhen aus der Integration von vorgebildeten Bildcodierern in Sprachmodelle. Sie übertreffen Claude 3 Haiku und GPT-4O Mini in visuellen Verständnisaufgaben.

Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide

Quelle: Lama 3.2: Revolutionierung von Edge AI und Vision mit offenen, anpassbaren Modellen

Für tiefere Einblicke in die Architektur, Benchmarks und Sicherheitsmerkmale von Lama 3.2 (Lama Guard 3) finden Sie den offiziellen Lama 3.2 -Leitfaden.

Zugriff auf Lama 3.2 auf Kaggle

Während Lama 3.2 Open-Source ist, erfordert der Zugriff die Akzeptanz von Geschäftsbedingungen. Hier erfahren Sie, wie Sie über Kaggle darauf zugreifen:

Besuchen Sie llama.com, füllen Sie das Zugriffsformular aus, wählen Sie sowohl leichte als auch Sichtmodelle aus.
Navigieren Sie zum Meta | Lama 3.2 Modellseite auf Kaggle und senden Sie das Formular.
Akzeptieren Sie die Allgemeinen Geschäftsbedingungen.
Warten Sie auf die Option zur Erstellung von Notebooks. Wählen Sie die Registerkarte Transformers, wählen Sie Ihre Modellvariante und erstellen Sie ein neues Notizbuch.
Konfigurieren Sie den Beschleuniger auf "GPU T4 x2".
Aktualisieren Sie die Pakete transformers und accelerate mit %pip install -U transformers accelerate.

Die nachfolgenden Schritte umfassen das Laden des Tokenizers und des Modells mithilfe der transformers -Bibliothek, der Angabe des lokalen Modellverzeichnisses, der Einstellung pad_token_id, des Erstellens einer Pipeline für Textgenerierung und Ausführen von Inferenz mit benutzerdefinierten Eingabeaufforderungen. Beispiele für detaillierte Code finden Sie im dazugehörigen Kaggle -Notebook. Ähnliche Schritte gelten für den Zugriff auf die Lama 3.2 Vision -Modelle, obwohl die GPU -Anforderungen erheblich höher sind.

feinstimmende Lama 3.2 3b anweisen

Dieser Abschnitt führt Sie durch die Feinabstimmung des LLAMA 3.2 3B-Modells auf einem Kundenunterstützungsdatensatz mithilfe der transformers Bibliothek und Qlora für effizientes Training.

Setup

Starten Sie ein neues Kaggle -Notebook- und Set -Umgebungsvariablen zum Umarmen von Gesicht und Gewichten und Verzerrungen (WANDB).
Installieren Sie die erforderlichen Pakete: transformers, datasets, accelerate, peft, trl, bitsandbytes und wandb.
Melden Sie sich mit Ihren API -Tasten beim Umarmen von Gesicht und dem Wandb an.
Variablen für das Basismodell, den neuen Modellnamen und den Datensatznamen definieren.

Laden des Modells und Tokenizers

bestimmen die entsprechenden torch_dtype und attn_implementation basierend auf Ihren GPU -Funktionen.
Laden Sie das Modell mit BitsAndBytesConfig für die 4-Bit-Quantisierung, um die Speicherverwendung zu minimieren.
Laden Sie den Tokenizer.

Laden und Verarbeitung des Datensatzes

Laden Sie die bitext/Bitext-customer-support-llm-chatbot-training-dataset.
mischen und wählen Sie eine Teilmenge der Daten aus (z. B. 1000 Proben für schnelleres Training).
Erstellen Sie eine "Text" -Spalte, indem Sie Systemanweisungen, Benutzeranfragen und Assistenten -Antworten in einem Chat -Format mit der Methode des Tokenizers kombinieren. apply_chat_template

Einrichten des Modells

, um nur spezifische Module zu optimieren. LoraConfig
mit geeigneten Hyperparametern für ein effizientes Training auf Kaggle ein. TrainingArguments
-Instanz, die Modell, Datensatz, LORA -Konfiguration, Trainingsargumente und Tokenizer bereitstellt. SFTTrainer

Modelltraining

trainieren Sie das Modell mit

. Überwachen Sie den Schulungs- und Validierungsverlust mit Wandb. trainer.train()

Modellinstr es

Testen Sie das feinabstimmige Modell mit Beispielaufforderungen aus dem Datensatz.

Speichern des Modells

speichern Sie das fein abgestimmte Modell lokal und drücken Sie es in den umarmenden Gesichtszentrum.

Zusammenführen und Exportieren des fein abgestimmten Modells

In diesem Abschnitt wird beschrieben, dass der fein abgestimmte Lora-Adapter mit dem Basismodell zusammengeführt wird und ihn in den umarmenden Gesichtszentrum exportiert. Es umfasst das Laden des Basismodells und des Lora -Adapters, das Zusammenführen von

und PeftModel.from_pretrained und dann das Speichern und Schieben des zusammengeführten Modells in den Hub. model.merge_and_unload()

Konvertieren in GGUF und Lokale Bereitstellung

Schließlich erläutert das Tutorial das Konvertieren des fusionierten Modells in das GGUF -Format mit dem GGUF My Repo -Tool zum Umarmen und Bereitstellen von Gesicht und Bereitstellung der Jan -Anwendung. Dies beinhaltet das Herunterladen der GGUF -Datei, das Importieren in Jan und das Einrichten der Systemaufforderung und das Stoppen von Token für eine optimale Leistung.

Schlussfolgerung

Feinabstimmung kleinere LLMs bietet einen kostengünstigen und effizienten Ansatz zum Anpassen von Modellen für bestimmte Aufgaben. Dieses Tutorial bietet einen praktischen Leitfaden zur Nutzung der Funktionen von LLAMA 3.2, vom Zugriff und der Feinabstimmung bis hin zur lokalen Bereitstellung, und befähigt die Benutzer, benutzerdefinierte AI-Lösungen zu erstellen und bereitzustellen. Denken Sie daran, die begleitenden Kaggle -Notizbücher für detaillierte Code -Beispiele zu konsultieren.

Das obige ist der detaillierte Inhalt vonFeinabstimmungslama 3.2 und lokal verwenden: eine Schritt-für-Schritt-Anleitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!