deepseek R1:革新的なオープンソース言語モデル
中国のAIスタートアップであるDeepseekは、2025年1月にDeepseek R1を発売しました。 専門家の混合物(MOE)のアーキテクチャ、強化学習、および推論への強調のユニークなブレンドは、それを際立たせます。 6710億パラメーターを誇ると、要求あたりわずか370億しかアクティブになり、計算効率が最適化されます。 Deepseek R1の高度な推論は、LlamaやQwenなどの小さくてアクセス可能なオープンソースモデルに蒸留され、プライマリDeepseek R1モデルによって生成されたデータを使用して微調整されています。
このチュートリアルの詳細DeepSeek-R1-Distill-lama-8Bモデルを使用した検索拡張生成(RAG)システムの構築-allama 3.1 8bモデルDeepSeek R1世代のデータで微調整されています。
主要な学習目標:
Deepseek R1のアーキテクチャ、イノベーション、および強化学習技術を把握しています
グループ相対ポリシーの最適化(GRPO)の推論の強化における役割を理解してください。
deepseek R1のベンチマークのパフォーマンスと効率を競合他社と比較して分析します。
deepseek R1の蒸留ラマモデルとQwenモデルを使用してRAGシステムを実装します。
-
- (この記事はデータサイエンスブログの一部です。)
-
- 目次:
deepseek r1の導入
deepseek R1の際立った機能
DeepSeek R1 の補強学習
Deepseek R1 の
grpo
Deepseek R1のベンチマークパフォーマンス-
deepseek r1蒸留モデル-
deepseek-r1-distill-qwen-1.5b- を備えたRAGシステムの構築
結論-
よくある質問-
- deepseek r1の紹介:
-
- Deepseek R1とその前身であるDeepseek R1-Zeroは、先駆的な推論モデルです。 Deepseek R1-Zeroは、監視された微調整(SFT)なしで大規模な補強学習(RL)を通じてのみ訓練され、印象的な推論能力を紹介しました。 ただし、読みやすさと言語の混合の問題に苦しんでいました。 Deepseek R1は、RLの前に「コールドスタート」データを組み込むことにより、これらの制限に対処し、推論と非季節のタスクの両方に堅牢な基盤を提供します。
- deepseek R1の際立った機能:
Deepseek R1の高度なアーキテクチャと効率性AIパフォーマンスを再定義します
重要なイノベーションには以下が含まれます
- Moe Architecture:標準変圧器モデルとは異なり、Deepseek R1のMOEアーキテクチャは、リクエストごとに6710億パラメーターのうち370億のパラメーターのみをアクティブにし、効率を高め、コストを削減します。
補強学習:- RLは、推論機能を強化し、個別の値関数モデルの必要性を排除し、微調整を合理化します。
費用対効果:
比較可能なプロジェクトよりも少ないリソース(2,000 nvidia gpus、〜560万ドル)を使用してトレーニングされているため、APIコストが大幅に低くなります。
-
優れたベンチマークパフォーマンス:deepseek R1は、精度とパーセンタイルテストで競合他社を一貫してアウトパフォームします(たとえば、AIME 2024で79.8%、コードフォースで96.3%)。
- スケーラビリティ:「蒸留」バージョン(1.5bから70bパラメーター)は、さまざまなハードウェア全体のアクセシビリティを確保します。
長いコンテキストの取り扱い:- 128Kトークンをサポートし、複雑でコンテキストが豊富なタスクを効果的に管理しています。
deepseek R1での補強学習:-
Deepseek R1のRLの革新的な使用は、従来の方法からのパラダイムシフトを表しています。 レバレッジ:
純粋なrl:は主にrlに依存しており、通常の監視された微調整をバイパスします。
自己進化:
反復試行と誤りを通じてパフォーマンスを改良します。
-
正確性とフォーマット報酬:正確な予測と適切に構造化された応答。
- チェーンオブオブサート(COT)推論:その推論プロセスを段階的に明確にします。
- 効率:膨大な量よりもデータ品質に優先順位を付けます
RLとSFTを組み合わせた:- コヒーレント出力のために高品質の「コールドスタート」データとRLとSFTを組み合わせます。
Deepseek R1:
の- grpo
GRPO(グループ相対ポリシーの最適化)は、LLMの推論を強化します。 値関数モデルの必要性を排除することにより、PPOを改善します。
-
GRPOの手順には、サンプリング出力、報酬スコアリング、アドバンテージ計算(グループ平均と比較)、およびポリシーの最適化。
deepseek R1のベンチマークパフォーマンス:
Deepseek R1の印象的なベンチマークの結果には、
が含まれます
Math-500:
97.3%(OpenaiのO1-1217を上回る)。
swe-bench verified:
49.2%。
aime 2024:
OpenaiのOpenai-O1-1217に匹敵します
- deepseek r1蒸留モデル:
Deepseek R1の知識は、800,000のDeepSeek R1で生成された例のデータセットを使用して、小さなモデルに蒸留されます。 これにより、LlamaやQwenなどのモデルに推論機能を効率的に転送できます。deepseek-r1-distill-qwen-1.5bを使用したRAGシステムを構築します
(このセクションには、指定されたモデルとライブラリを使用してRAGシステムをセットアップするための詳細なコード例が含まれます。長さの制約のため、この部分は省略されていますが、ライブラリのインストールの手順が含まれますが、PDFのインストール、埋め込み、レトリバーのロード、モデルのロード、モデルのロード、ラグパイプラインの作成、結論:
deepseek R1は、純粋なRLと優れたパフォーマンスと効率のために革新的な技術を利用する言語モデルの推論の大幅な進歩を意味します。 その蒸留モデルにより、高度な推論がより広い範囲のアプリケーションにアクセスできるようにします。
よくある質問:
(このセクションには、元のテキストと同様に、Deepseek R1に関するよくある質問への回答が含まれます。
(注:画像URLは変更されていません。)
以上がdeepseek R1蒸留モデルを使用したAI推論用のRAGシステムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。