deepseek-7bでslothを使用してgrpo微調整-AI-php.cn

Deepseekは、自然言語処理の世界を席巻しました。印象的なスケールとパフォーマンスにより、この最先端のモデルは、質問の回答やテキストの要約などのタスクに優れています。微妙な理解を処理する能力は、業界全体でゲームチェンジャーになります。微調整はその力を高め、ニッチのニーズに適応させ、正確な結果を迅速に提供します。微調整は、専門のデータセットでそれを改良することにより、deepseek-7bをジェネラリストからドメインの専門家に変換します。このブログでは、GRPO（一般的な補強前の事前化の最適化）が、補強学習により微調整を改善する方法、およびSlothがメモリ管理を最適化し、DeepSeek-7Bなどの大規模なモデルのプロセスを高速化する方法を探ります。一緒に、これらの方法により、より速く、費用対効果の高い微調整を可能にし、次世代AIアプリケーションを運転します。

学習目標

このブログの終わりまでに、できるはずです。

特殊なタスクのパフォーマンスを向上させるために、微調整DeepSeek-7Bの基礎を学ぶ。

PPOに対するGRPOの利点を発見し、微調整のトレーニング効率を高めます。

deepseek-7b sloth、vllm、hugging face、およびgpuパフォーマンスを最適化した微調整をセットアップします。
補強学習における構造化された出力のために正確性やXMLなどの報酬関数を実装してください。
この記事は、
データサイエンスブログの一部として公開されました。
目次
- deepseekモデルとgrpoアルゴリズムの理解
- GRPOの紹介とそれが微調整を改善する方法grpo
- deepseek-7bは、微調整されたモデルの保存とリロード
- 一般的な落とし穴とトラブルシューティング
- 結論
- よくある質問
とは何ですか？
deepseek-r1-distill-qwen-7bは、Qwenアーキテクチャの上に構築された最先端の大規模な言語モデルです。堅牢でスケーラブルな設計により、テキスト生成、質問応答、要約などの複雑なNLPタスクを処理するために、数十億のパラメーターを活用します。 DeepSeek-7Bバリアントは、その大規模なカウンターパートの蒸留バージョンです。つまり、計算とメモリの使用に関してはより効率的であることを意味します。これにより、推論の速度と精度の両方が重要な環境での展開に適しています。そのアーキテクチャは、自己関節メカニズムを備えたトランス層を採用しているため、テキストの長距離依存関係を処理するのに非常に効果的です。

重要な機能とアーキテクチャの概要

deepseek-7Bは、非常に平行になり、大規模なデータセットで効率的なトレーニングを可能にする多層変圧器アーキテクチャを利用しています。各レイヤーは、一連のマルチヘッド自己触媒モジュールとフィードフォワードネットワークで構成されています。注意メカニズムは、モデルが処理中に入力シーケンスの関連部分に焦点を合わせるのに役立ち、コンテキストの理解を必要とするタスクに非常に効率的になります。

deepseek-7bプロセス位置エンコード、注意層、およびフィードフォワードレイヤーを介したトークン埋め込み、高品質の結果を維持しながら大きなデータセットに効率的なスケーリングを可能にします。その深いコンテキストを意識する理解は、微調整後のドメイン全体の一般化を強化します。 LORAのような方法は、低ランクの更新を適用することでトレーニング効率を改善し、限られた計算リソースでも微調整を実現可能にします。 grpoの紹介と、微調整を改善する GRPO（一般的な補強前最適化）は、大規模な言語モデルの効率を高めるために設計された高度な手法です。補強学習の原則と、直接監督ではなく報酬信号を使用してモデルの動作を改良するための事前販売と組み合わせます。 GRPOは、ポリシーベースの最適化アプローチを使用して、モデルのパラメーターを繰り返し最適化します。典型的な微調整シナリオでは、モデルは監視されたデータセットでトレーニングされ、グラウンドトゥルースラベルから直接学習します。対照的に、GRPOは、その動作を導く報酬信号を最大化するためにモデルが訓練されている強化学習（RL）パラダイムを導入します。このプロセスにより、モデルはタスク固有のニュアンスにより柔軟に適応し、精度と一般化の両方を改善できます。 GRPOのポリシー最適化の重要な式は、次のように表現できます。

ここで：

このポリシーベースのアプローチにより、モデルはトレーニング中に提供されるフィードバックに継続的に適応し、タスク固有の目標に対応する報酬信号の改善に焦点を当てています。
GRPOの報酬信号

GRPOでは、報酬関数は特定のタスク要件に従って定義でき、モデルを指導して目的の動作に焦点を当てます。報酬は、精度、フォーマット、論理的な一貫性など、複数の要因の関数になります。たとえば、正確な報酬関数このフィードバックメカニズムにより、GRPOはモデルを徐々に改良し、与えられたタスクで最も重要な領域を強調します。
GRPOがPPO（近位のポリシーの最適化）とどのように異なるか？
GRPOは、事前トレーニングプロセスを最適化するためにポリシーベースの強化学習を導入していますが、PPO（近位政策最適化）は、特に大規模なモデルを微調整するコンテキストで、強化学習において広く使用されている別のアルゴリズムです。 PPOは、安定性と高次元のアクションスペースを処理する能力で知られており、大規模なモデルのトレーニングに人気があります。ただし、PPOは多くの場合、大量のデータが必要であり、学習率のようなハイパーパラメーターに敏感になる可能性があります。
GRPOとPPOの重要な違いは、ポリシーの最適化の性質にあります。 PPOでは、現在のポリシーからの大きな逸脱を防ぐために、クリップされた目的を使用してポリシーが更新され、不安定なトレーニングにつながる可能性があります。 PPO目的関数は次のように与えられます

ここで：

PPOのこの「クリッピング」メカニズムは、不安定性につながる可能性のある大規模なポリシーの更新を回避するのに役立ちますが、特にDeepSeek-7B。クリップされた目的により、ポリシーの大きな逸脱を罰することにより、モデルが大きく不安定な更新を行わないようにします。ただし、特に更新の数と学習率を慎重に調整する必要がある大きなモデルでは、安定性と学習速度の間のトレードオフも導入します。対照的に、GRPOは、「信頼領域」アプローチに依存せずにタスク固有のメトリックのパフォーマンスを直接最大化できるようにする、より適応的で動的な報酬構造を使用します。 GRPOの最適化手順では、クリッピングは必要ありません。その報酬ベースの学習メカニズムは、微調整へのより直接的で効率的なルートを提供します。その結果、GRPOでは、最適なパフォーマンスに収束するために必要な更新が少なくなることがよくあります。パラメーターの勾配更新ルールの勾配θ

GRPOのモデルパラメーターを更新するための勾配は、モデルを介した報酬をbackプロパゲートすることにより計算されます。報酬

r_t
モデル出力から計算された時間ステップの場合、パラメータのグラデーション更新ルールθis：

この勾配降下アプローチは、アドバンテージ関数に基づいて勾配が調整されるPPOクリッピング方法と比較して、より直接的かつ効率的です。 PPOとGRPOアルゴリズムの主な違いを以下にまとめます。

lonsloth：微調整の効率を向上させる

deepseek-7bのような微調整する大規模な言語モデルは計算上高価であり、重要なメモリと処理能力が必要です。 Unslothは、トレーニングを加速しながら、メモリ消費を大幅に削減するように設計された最適化フレームワークです。 GPUリソースの効率的な利用を保証し、消費者グレードのハードウェアで微調整できるようにするため、LORA（低ランク適応）とGRPOを使用する場合に特に有益です。
どのように施されていない方法はモデルトレーニングを最適化しますか？

lothlothは、モデルの微調整効率を向上させるいくつかの最適化を導入します：
- 速いトレーニングと推論：フラッシュの注意とページオプティマイザーを活用することにより、卒業生はトレーニングと推論の両方を大幅に加速します。
- LORAとのシームレスな統合：UnslothはLORAをネイティブにサポートし、ユーザーはネットワーク全体ではなくモデルパラメーターのサブセットのみをトレーニングできます。
- Unslothを使用したモデルの読み込みプロセスはシンプルで、効率的な実行を可能にします。同じことの詳細については、後続のセクションで説明します。 Unslothを使用することの利点
GPUメモリの使用量を最大50％削減し、中間層GPUでのトレーニングを許可します。
最適化された注意メカニズムを統合することにより、より高速なトレーニングを可能にします
推論の加速のためにVLLM（非常に大きな言語モデル）をサポートします
GRPOでシームレスに動作し、補強学習ベースの微調整がリソース効率が高いことを確認します。
- grpo
- deepseek-7bのアーキテクチャとGRPOアルゴリズムをカバーする前のセクションに敷設した基盤の上に構築されているので、モデルを微調整するために必要な実用的な手順を掘り下げる時が来ました。このセクションでは、環境のセットアップからGRPOトレーナーの構成まで、コードスニペットやプロセスの各部分の詳細な説明など、必要な手順を説明します。セクション2で説明したDeepSeek-7Bモデルは、大規模なNLPタスクを処理するための強力なツールであり、GRPO（一般補強前の最適化）とペアになると、さらに効率的になります。 GRPOアプローチを適用することにより、強化学習フレームワークを使用して、DeepSeek-7Bを特定のタスクで微調整できます。これにより、モデルはより良い結果を生み出すだけでなく、従来の方法よりも効果的に新しいデータに適応することができます。
  GRPOと眠りを使用して微調整するDeepSeek-7Bの詳細な手順を調査しましょう。トレーニング中の効率的なメモリ使用のためにLORAを活用してください。
  ステップ1：環境のセットアップ
  
  最初は、deepseek-7bを微調整するには、環境をセットアップする必要があります。これには、Unsloth、VLLM、その他の必要なパッケージなどの依存関係のインストールが含まれます。これらのパッケージをインストールするコマンドは次のとおりです
  
  説明：
  !pip install unsloth vllm datasets !pip install git+https://github.com/huggingface/trl.git
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
  unsloth：
  - 効率的な言語モデルの微調整とメモリの最適化のためのライブラリ。 vllm：
  - データセット：
  - これらがインストールされたら、モデルをロードして微調整を開始することができます。 ステップ2：モデルにunslothをロードする 次に、Unslothを使用してDeepSeek-7Bモデルをロードします。モデルには、効率的な微調整のためにLORA（低ランク適応）がロードされます。このステップのコードスニペットは次のとおりです
  説明：
  from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained( model_name="unsloth/DeepSeek-R1-Distill-Qwen-7B", max_seq_length=512, load_in_4bit=True, # Uses 4-bit quantization for memory efficiency fast_inference=True, # Enables fast inference for quicker processing max_lora_rank=32, # LoRA rank for fine-tuning efficiency gpu_memory_utilization=0.6 # Controls memory usage )
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
  model_name：
  ロードするモデル、この場合、deepseek-r1-distill-qwen-7b。
  - max_seq_length：入力トークンの最大シーケンス長を定義します。
  - load_in_4bit：4ビット量子化を使用して、メモリの使用量を大幅に削減します。
  - fast_inference：これにより、VLLMは推論時間を高速化できます
  - ローラ適応のランク、低ランクマトリックスのサイズを制御します。 gpu_memory_utilization：
  - メモリのエラーを避けるためにモデルが使用するGPUメモリの量を調整します。 予想される結果：モデルは、最適化された構成でメモリにロードされ、LORAで微調整する準備ができています。
  - lora
  説明：
  - r：loraマトリックスのランク。ランクが高いほど、よりスマートだが遅いトレーニングにつながる可能性があります。
  - Target_modules：ここでloraが適用されるモデルレイヤー（クエリ投影のq_projなど）。
  - lora_alpha：lora層の重要性を制御するために使用されるスケーリング係数。
  - これにより、必要に応じて中間勾配を保存することでメモリの消費が削減されます。 random_state：
  - 微調整プロセスの再現性を保証します。予想される結果：
  モデルはメモリの使用量に最適化され、大規模なデータセットで効率的に微調整できます。
  
  ステップ4：トレーニングデータセットの準備
  
  微調整DeepSeek-7Bには、特定の方法でフォーマットされたデータセットが必要です。ここでは、データセットをJSONファイル形式から抱き合っているFace DataSetオブジェクトにロードして変換します。コードは次のとおりです
  
  説明：
  !pip install unsloth vllm datasets !pip install git+https://github.com/huggingface/trl.git
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
  load_and_and_transform_json：
  JSONファイルをロードし、トレーニングに必要な形式に変換します。
  - および
  - ととともに、。
  予想される結果：データセットは正しい形式で、トレーニングの準備ができています。以下は、データセットの1つのサンプルです
  
  ステップ5：構造化された出力の報酬関数の設計
  
  補強学習では、報酬関数はモデルを望ましい出力に向けて導きます。ここでは、モデルの応答を評価するための報酬関数を定義します。たとえば、respenness_reward_funcは、抽出された回答が期待される回答と一致するかどうかを確認します。
  
  説明：
  from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained( model_name="unsloth/DeepSeek-R1-Distill-Qwen-7B", max_seq_length=512, load_in_4bit=True, # Uses 4-bit quantization for memory efficiency fast_inference=True, # Enables fast inference for quicker processing max_lora_rank=32, # LoRA rank for fine-tuning efficiency gpu_memory_utilization=0.6 # Controls memory usage )
  ログイン後にコピー
  ログイン後にコピー
  ログイン後にコピー
  - 抽出された応答を予想される回答と比較します。それらが一致する場合、それは2.0の報酬を与えます。 int_reward_func：
  - 数値応答を生成するためにモデルに報酬を与えます。 strict_format_reward_func：
  - モデルの出力が厳格なXML形式に従って続けることを保証し、整形式の出力に対して報酬を与えます。 soft_format_reward_func：
  - xmlcount_reward_func：出力がXML構造にどの程度うまくたどり着くかを評価します。
  - 予想される結果：これらの報酬関数は、正しいだけでなく、十分に構築され、目的の形式でも、応答を生成するためにモデルを導きます。
    ステップ6：GRPOトレーナーの構成
    
    次に、トレーニングデータセットと報酬機能を使用するようにgrpotrainerを構成します。 GRPOCONFIGオブジェクトは、学習レートやバッチサイズなどのトレーニングパラメーターを指定するために使用されます。
    !pip install unsloth vllm datasets !pip install git+https://github.com/huggingface/trl.git
    ログイン後にコピー
    ログイン後にコピー
    ログイン後にコピー
    ログイン後にコピー
    説明：
    - grpoconfig：学習率、バッチサイズ、生成される世代数などのさまざまなトレーニングパラメーターを構成します。
    - grpotrainer：このクラスは、実際のトレーニングプロセスを担当しています。モデル、トークネイザー、報酬機能、およびトレーニングの議論を取り入れています。
    - モデル最適化の学習率。 5E-6のような値が低いと、多くの反復にわたって安定したトレーニングが可能です。 per_device_train_batch_size：
    - 各トレーニングステップのバッチサイズ。ここでは、1に設定されています。つまり、各GPUは一度に1つの例を処理します。 num_generations：
    - MAX_PROMPT_LENGTH：入力プロンプトの最大トークン長
    - max_compleation_length：モデルの出力の最大トークン長
    - max_steps：実行するトレーニング手順の数。
    - 予想される結果：モデルは、定義された報酬関数を使用してGRPOアルゴリズムでトレーニングされます。
    微調整されたモデルの保存とリロード
    DeepSeek-7BモデルがGRPOとLORAを使用して微調整されたら、将来の使用のためにモデルをディスクまたはクラウドストレージに保存することが重要です。このセクションでは、微調整されたモデルを保存し、推論のために再度ロードする方法について説明します。これにより、進捗状況を維持し、ゼロから再訓練を避けることができます。 Lora-fine-Tunedモデルの保存
    
    モデルがLORAとGRPOで微調整された後、ストレージの場所に保存する必要があります。これは、再訓練する必要なく後でモデルをリロードできるようにするための重要なステップです。ロラ固有のウェイトを含む微調整モデルをディスクに保存する方法は次のとおりです。
    
    説明：
    - model.save_pretrained：これにより、モデルの重みとロラ固有のレイヤー（低ランク適応マトリックスなど）の両方が保存されます。
    - tokenizer.save_pretrained：トークン剤を保存します。これには、特別なトークンや語彙などのトークン化ロジックが含まれます。
    - model_save_path：モデルを保存するディレクトリ。これは、ローカルパスまたはクラウドディレクトリ（例：Google Drive、S3）です。
    予想される結果：
    モデルとトークネザーは指定されたパスに保存され、将来の使用に利用できるようにします。後でこの保存されたモデルを使用して、再訓練を必要とせずに推論用の正確な微調整バージョンをリロードできます。
    将来の推論のためにモデルのロード
    微調整されたモデルを保存したら、推論またはさらに微調整するためにメモリに簡単にロードすることができます。これは、保存されたモデルとトークナイザーをロラ固有の構成とともにロードするためのコードです。
    
    説明：
    !pip install unsloth vllm datasets !pip install git+https://github.com/huggingface/trl.git
    ログイン後にコピー
    ログイン後にコピー
    ログイン後にコピー
    ログイン後にコピー
    fastLanguageModel.from_pretrained：
    - この関数は、指定されたパスから保存されたモデルの重みとトークンザーをロードします。 max_lora_rank：
    - load_in_4bitおよびgpu_memory_utilization：は、推論のためにロードされた場合、モデルがメモリ効率を高め続けることを保証します。
    - 予想される結果：モデルは保存されたディレクトリからロードされ、LORA構成がロードされ、推論を効率的に実行できます。これは、モデルが微調整されたパラメーターを活用し、微調整プロセスを再適用せずに応答の生成または実行を直接開始できることを意味します。以下は、このブログを微調整するために使用されるデータセットの出力の例です。プロセスフローシートに関連していました。モデルがどのように推論し、クエリへの応答を生成するかを確認します。 GRPOモデルでの微調整には、以下の答えに反映されている推論機能が組み込まれています。
    Advanced Option：クラウドストレージへの保存モデルをクラウドストレージ（Google DriveやAmazon S3など）に保存する場合は、Model_Save_Pathを変更してそれぞれのクラウドディレクトリを指すことができます。これは、
    gdown
    ：
    を使用してGoogleドライブに保存する例を示します。
    amazon s3、
    
    boto3ライブラリを使用してモデルをアップロードできます。
    from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained( model_name="unsloth/DeepSeek-R1-Distill-Qwen-7B", max_seq_length=512, load_in_4bit=True, # Uses 4-bit quantization for memory efficiency fast_inference=True, # Enables fast inference for quicker processing max_lora_rank=32, # LoRA rank for fine-tuning efficiency gpu_memory_utilization=0.6 # Controls memory usage )
    ログイン後にコピー
    ログイン後にコピー
    ログイン後にコピー
    説明：
    予想される結果：
    
    クラウドからモデルを保存してアクセスできるため、他の環境で簡単に共有して展開できます。 一般的な落とし穴とトラブルシューティング
    
    deepseek-7bなどの大規模なモデルを微調整すると、特にGPUメモリ、トレーニング構成、報酬機能の調整に関連するいくつかの一般的な落とし穴が生じる可能性があります。これらの問題を認識し、それらをトラブルシューティングする方法を理解することで、微調整プロセス中に多くの時間を節約できます。
    1。 GPUメモリオーバーロード
    特にLORAなどの高度な構成を使用したり、バッチサイズの高いトレーニングを使用したりする場合、
    大型モデルの微調整は、GPUメモリ過負荷につながることがよくあります。これを緩和するには：
    
    バッチサイズを削減するか、
    per_device_train_batch_size
    - grpoconfigのパラメーターを調整して、GPUのメモリ内に収まります。 use_gradient_checkpointing =“ unsloth”
    - メモリの問題に遭遇した場合、ロラランクを下げます。 2。不適切なモデルの読み込み 時々、モデルの読み込み構成が正しくない場合、特に4ビットの精度またはLORAで大きなモデルをロードする場合、問題を引き起こす可能性があります。必ず：
    max_lora_rank
    
    および