Llama 3.2を微調整してローカルに使用する：ステップバイステップガイド-AI-php.cn

Llama 3.2を微調整してローカルに使用する：ステップバイステップガイド

William Shakespeare

リリース： 2025-03-03 10:30:12

オリジナル

817 人が閲覧しました

ラマの力のロックを解除する3.2：微調整とローカル展開の包括的なガイド

大規模な言語モデル（LLM）の風景は急速に進化しており、より小さく、より効率的なモデルに焦点を当てています。 Llama 3.2は、その軽量およびビジョンモデルのバリエーションを備えており、この傾向を例示しています。このチュートリアルでは、LLAMA 3.2の機能、特に3Bの軽量モデルを活用する方法を詳しく説明します。これは、カスタマーサポートデータセットとその後のローカル展開を微調整して、JANアプリケーションを使用して展開します。

飛び込む前に、初心者は、LLMSと生成AIの基本を把握するためにAIの基本コースを完了することを強くお勧めします。

Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide 著者による画像

Llama 3.2モデルの探索

llama 3.2には、軽量とビジョンの2つのモデルファミリを提供しています。軽量モデルは、リソースに制約のある環境に最適な多言語テキストの生成とツールの使用に優れています。一方、ビジョンモデルは、画像の推論とマルチモーダルタスクに特化しています。

軽量モデル

軽量ファミリには、1Bおよび3Bパラメーターバリアントが含まれています。それらのコンパクトサイズにより、オンデバイス処理が可能になり、データプライバシーと高速で費用対効果の高いテキスト生成が確保されます。これらのモデルは、効率とパフォーマンスのために剪定と知識の蒸留を利用しています。 3Bモデルは、Gemma 2やPhi 3.5-Miniなどの競合他社を、指示に続いて要約するなどのタスクで登録します。

ソース：Llama 3.2：オープンでカスタマイズ可能なモデルを使用したエッジAIとビジョンに革命をもたらします

Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide ビジョンモデル

ビジョンモデル（11bおよび90bパラメーター）は、ドキュメントやチャートを解釈できる画像推論用に設計されています。それらのマルチモーダル機能は、事前に訓練された画像エンコーダーを言語モデルと統合することに起因しています。彼らは視覚的理解のタスクでクロード3ハイクとGPT-4Oミニを上回ります。

ソース：Llama 3.2：オープンでカスタマイズ可能なモデルを使用したエッジAIとビジョンに革命をもたらします

Llama 3.2のアーキテクチャ、ベンチマーク、セキュリティ機能（Llama Guard 3）に関するより深い洞察については、公式のLlama 3.2ガイドを参照してください。

kaggleでllama 3.2へのアクセス Fine-tuning Llama 3.2 and Using It Locally: A Step-by-Step Guide

llama 3.2はオープンソースですが、アクセスには条件を受け入れる必要があります。 kaggle：

経由でアクセスする方法は次のとおりです

llama.comにアクセスして、アクセスフォームに記入して、軽量モデルとビジョンモデルの両方を選択してください。
条件を受け入れます。
ノートブック作成オプションをお待ちしています。 [トランスフォーマー]タブを選択し、モデルバリアントを選択し、新しいノートブックを作成します。
ライブラリを使用してトークン剤とモデルのロード、ローカルモデルディレクトリの指定、transformersの設定、テキスト生成パイプラインの作成、およびカスタムプロンプトの実行の実行を実行します。詳細なコードの例は、付随するKaggleノートブックに記載されています。 GPUの要件は大幅に高くなりますが、Llama 3.2ビジョンモデルへのアクセスにも同様の手順が適用されます。 accelerate微調整llama 3.2 3b instruce%pip install -U transformers accelerate このセクションでは、効率的なトレーニングのために

セットアップ

新しいKaggleノートブックを起動し、顔と重量とバイアス（WANDB）アクセスを抱き締めるための環境変数を設定します。
、transformers、datasets、accelerate、peft、trl。 bitsandbytesAPIキーを使用して顔とwandbを抱き締めるためにログインします。wandb

を決定します。 4ビットの量子化に

torch_dtype attn_implementationデータセットの読み込みと処理
BitsAndBytesConfig
をロードします

メソッドを使用してチャット形式に組み合わせて「テキスト」列を作成します。

bitext/Bitext-customer-support-llm-chatbot-training-dataset
特定のモジュールのみを微調整するために
apply_chat_templateKaggleでの効率的なトレーニングのために適切なハイパーパラメーターを使用して

インスタンスを作成します。

を使用してモデルをトレーニングします。 wandbを使用したトレーニングと検証の損失を監視します LoraConfigモデル推論
データセットからのサンプルプロンプトで微調整されたモデルをテストします。 TrainingArgumentsモデルの保存
微調整されたモデルをローカルに保存し、抱きしめる顔のハブに押し込みます。 SFTTrainer微調整されたモデルのマージとエクスポート

を使用してマージし、マージされたモデルをハブに保存およびプッシュすることを含みます。 GGUFおよびローカルデプロイメントへの変換

最後に、チュートリアルでは、マージされたモデルをGGUF形式に変換することを説明しています。GGUFマイレポツールを使用して顔を抱きしめ、JANアプリケーションを使用してローカルに展開します。これには、GGUFファイルをダウンロードし、JANにインポートし、システムプロンプトをセットアップして最適なパフォーマンスのためにトークンを停止します。

結論

微調整小型LLMSは、特定のタスクのモデルをカスタマイズするための費用対効果の高い効率的なアプローチを提供します。このチュートリアルでは、アクセスや微調整からローカル展開まで、Llama 3.2の機能を活用するための実用的なガイドを提供し、ユーザーがカスタムAIソリューションを構築および展開できるようにします。詳細なコードの例については、付随するKaggleノートブックに相談してください。

以上がLlama 3.2を微調整してローカルに使用する：ステップバイステップガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。