Penalaan Llama 3.2 dan menggunakannya secara tempatan: Panduan Langkah demi Langkah-AI-php.cn

Penalaan Llama 3.2 dan menggunakannya secara tempatan: Panduan Langkah demi Langkah

William Shakespeare

Lepaskan： 2025-03-03 10:30:12

asal

817 orang telah melayarinya

Membuka Kekuatan Llama 3.2: Panduan Komprehensif untuk Penalaan dan Penempatan Tempatan

Landskap model bahasa besar (LLMS) berkembang pesat, dengan tumpuan kepada model yang lebih kecil dan lebih cekap. Llama 3.2, dengan variasi model ringan dan penglihatannya, mencontohkan trend ini. Tutorial ini memperincikan bagaimana memanfaatkan keupayaan Llama 3.2, khususnya model ringan 3B, untuk penalaan halus pada dataset sokongan pelanggan dan penggunaan tempatan berikutnya menggunakan aplikasi Jan.

Sebelum menyelam, pemula sangat digalakkan untuk menyelesaikan kursus asas AI untuk memahami asas -asas LLM dan AI generatif.

~~imej oleh pengarang~~

meneroka model llama 3.2

Llama 3.2 menawarkan dua keluarga model: ringan dan penglihatan. Model ringan cemerlang pada penjanaan teks berbilang bahasa dan penggunaan alat, sesuai untuk persekitaran yang terkawal sumber. Model penglihatan, sebaliknya, mengkhususkan diri dalam penalaran imej dan tugas multimodal.

Model ringan

Keluarga ringan termasuk varian parameter 1B dan 3B. Saiz padat mereka membolehkan pemprosesan pada peranti, memastikan privasi data dan penjanaan teks yang cepat dan kos efektif. Model -model ini menggunakan pemangkasan dan penyulingan pengetahuan untuk kecekapan dan prestasi. Model 3B melepasi pesaing seperti Gemma 2 dan Phi 3.5-mini dalam tugas-tugas seperti arahan berikut dan ringkasan.

Sumber: llama 3.2: merevolusi edisi ai dan penglihatan dengan model terbuka dan disesuaikan Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide

Model penglihatan

Model penglihatan (parameter 11b dan 90b) direka untuk penalaran imej, mampu menafsirkan dokumen dan carta. Keupayaan multimodal mereka berpunca daripada mengintegrasikan pengekod imej pra-terlatih dengan model bahasa. Mereka mengatasi Claude 3 Haiku dan GPT-4O mini dalam tugas pemahaman visual.

Sumber: llama 3.2: merevolusi edisi ai dan penglihatan dengan model terbuka dan disesuaikan

Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide Untuk pandangan yang lebih mendalam mengenai seni bina, tanda aras, dan ciri keselamatan Llama 3.2 (Llama Guard 3), rujuk kepada panduan rasmi Llama 3.2.

mengakses llama 3.2 di Kaggle

Walaupun Llama 3.2 adalah sumber terbuka, akses memerlukan penerimaan terma dan syarat. Inilah cara mengaksesnya melalui Kaggle:

Lawati llama.com, lengkapkan borang akses, memilih model ringan dan penglihatan.
Navigasi ke Meta | Llama 3.2 Model Page on Kaggle dan serahkan borang.
menerima terma dan syarat.
menunggu pilihan penciptaan notebook. Pilih tab Transformers, pilih varian model anda, dan buat buku nota baru.
Konfigurasikan pemecut kepada "GPU T4 X2".
Kemas kini pakej transformers dan accelerate menggunakan %pip install -U transformers accelerate.

Langkah -langkah seterusnya melibatkan pemuatan tokenizer dan model menggunakan perpustakaan transformers, menyatakan direktori model tempatan, menetapkan pad_token_id, mewujudkan saluran paip penjanaan teks, dan menjalankan kesimpulan dengan arahan tersuai. Contoh kod terperinci disediakan dalam buku nota Kaggle yang disertakan. Langkah -langkah yang sama berlaku untuk mengakses model penglihatan Llama 3.2, walaupun keperluan GPU jauh lebih tinggi.

Fine-penune llama 3.2 3b Arahan

Bahagian ini membimbing anda melalui penalaan halus Llama 3.2 3b mengarahkan model pada dataset sokongan pelanggan menggunakan perpustakaan dan qlora untuk latihan yang efisien. transformers

persediaan

Lancarkan notebook Kaggle baru dan menetapkan pembolehubah persekitaran untuk memeluk muka dan berat & bias (WANDB) akses.
Pasang pakej yang diperlukan: transformers, datasets, accelerate, peft, trl, bitsandbytes, dan wandb.
log masuk untuk memeluk muka dan wandb menggunakan kekunci API anda.
Tentukan pembolehubah untuk model asas, nama model baru, dan nama dataset.

Memuatkan model dan tokenizer

Tentukan yang sesuai torch_dtype dan attn_implementation berdasarkan keupayaan GPU anda.
Muatkan model menggunakan BitsAndBytesConfig untuk kuantisasi 4-bit untuk meminimumkan penggunaan memori.
Muatkan tokenizer.

Memuat dan memproses dataset

Muatkan bitext/Bitext-customer-support-llm-chatbot-training-dataset.
shuffle dan pilih subset data (mis., 1000 sampel untuk latihan yang lebih cepat).
Buat lajur "teks" dengan menggabungkan arahan sistem, pertanyaan pengguna, dan respons pembantu ke dalam format sembang menggunakan kaedah apply_chat_template tokenizer.

menyediakan model

Kenal pasti semua nama modul linear menggunakan fungsi penolong.
Konfigurasi LORA menggunakan LoraConfig untuk menyempurnakan modul spesifik sahaja.
Sediakan TrainingArguments dengan hiperparameter yang sesuai untuk latihan yang cekap pada kaggle.
Buat contoh SFTTrainer, menyediakan model, dataset, konfigurasi lora, hujah latihan, dan tokenizer.

Latihan Model

Melatih model menggunakan trainer.train(). Pantau latihan dan kehilangan pengesahan menggunakan WANDB.

kesimpulan model

menguji model yang disesuaikan dengan contoh sampel dari dataset.

Menyimpan model

Simpan model yang disesuaikan secara tempatan dan tolaknya ke hab muka yang memeluk.

menggabungkan dan mengeksport model halus

Bahagian ini butiran menggabungkan penyesuai LORA yang disesuaikan dengan model asas dan mengeksportnya ke hab muka yang memeluk. Ia melibatkan memuatkan model asas dan penyesuai LORA, menggabungkannya menggunakan PeftModel.from_pretrained dan model.merge_and_unload(), dan kemudian menjimatkan dan menolak model yang digabungkan ke hab.

menukar kepada GGUF dan penempatan tempatan

Akhirnya, tutorial menerangkan menukarkan model yang digabungkan ke format GGUF menggunakan alat repo saya GGUF untuk memeluk muka dan menggunakannya secara tempatan menggunakan aplikasi Jan. Ini melibatkan memuat turun fail GGUF, mengimportnya ke Jan, dan menubuhkan token sistem dan berhenti untuk prestasi optimum.

Kesimpulan

Fine-penalaan LLMS yang lebih kecil menawarkan pendekatan kos efektif dan cekap untuk menyesuaikan model untuk tugas tertentu. Tutorial ini menyediakan panduan praktikal untuk memanfaatkan keupayaan Llama 3.2, dari akses dan penalaan halus ke penggunaan tempatan, memperkasakan pengguna untuk membina dan menggunakan penyelesaian AI tersuai. Ingatlah untuk berunding dengan buku nota Kaggle yang disertakan untuk contoh kod terperinci.

Atas ialah kandungan terperinci Penalaan Llama 3.2 dan menggunakannya secara tempatan: Panduan Langkah demi Langkah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!