このチュートリアルでは、患者ドクターの会話データセットでGoogleのGemma 2モデルを微調整し、オフラインで使用するために展開していることを示しています。 モデルの準備、LORAでの微調整、モデルの合併、量子化、およびJANアプリケーションでのローカル展開について説明します。
の理解 Googleの最新のオープンソースラージモデル(LLM)であるGemma 2は、許容ライセンスの下で9Bおよび27Bのパラメーターバージョンを提供しています。その改良されたアーキテクチャは、さまざまなハードウェアにわたってより速い推論を提供し、フェイストランス、Jax、Pytorch、Tensorflowの抱き合ったものとシームレスに統合します。 強化された安全機能と倫理的AI展開ツールも含まれています。
gemma 2
このセクションでは、4ビットの量子化(消費者ハードウェアのメモリ効率に必要)のダウンロードと実行の推論の詳細。
パッケージをインストール:
インストール。
bitsandbytes
transformers
accelerate
顔の認証の抱きしめ:
ロードモデルとトークンザー: 4ビット量子化と適切なデバイスマッピングを使用して
モデルをロードします。推論:プロンプトを作成し、それをトークン化し、応答を生成し、デコードします。
google/gemma-2-9b-it
を備えた微調整gemma 2
このセクションでは、効率的なトレーニングのためにLORA(低ランク適応)を使用して、ヘルスケアデータセットで微調整されたGemma 2をガイドします。
必要なパッケージをインストールします(、、
、、
、
transformers
datasets
モデルとトークネイザーの負荷:accelerate
4ビット量子化、調整データタイプ、およびGPU機能に基づいた注意実装を備えたgemma 2(9b-it)をロードします。 LORAパラメーターを構成します
peft
trl
bitsandbytes
wandb
データセットの読み込み:
トレーニング:トレーニング引数を設定し(必要に応じてハイパーパラメーターを調整します)、SFTTrainer
を使用してモデルをトレーニングします。 重量とバイアスでトレーニングの進捗状況を監視します。
評価:重みとバイアスを終了して、評価レポートを生成します。
モデルの保存:微調整されたロラアダプターをローカルに保存し、ハグのフェイスハブに押します。
このステップは、微調整されたLORAアダプターと、単一の展開可能なモデルのベースGEMMA 2モデルとマージします。 これは、メモリの制約を管理するためにCPUで行われます。
のセットアップ:ロードアンドマージ:
ベースモデルと保存されたアダプターをロードしてから、
PeftModel.merge_and_unload()
保存とプッシュ:
gguf私のリポジトリを使用して、最適なローカル展開のために、モデルをGGUF形式に簡単に変換して定量化します。
jan で微調整されたモデルをローカルに使用します
hugging hugging face hubから量子化されたモデルをダウンロードします
このチュートリアルは、Gemma 2を微調整および展開するための包括的なガイドを提供します。ハードウェアとデータセットに基づいて、ハイパーパラメーターと設定を調整することを忘れないでください。 潜在的により速いトレーニングと推論については、Keras 3を探索することを検討してください。
以上がGemma 2を微調整し、ローカルで使用しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。