Tülu3:言語モデルのための革新的なオープンソース後のトレーニング枠組
自然言語処理の分野(NLP)は、訓練後の技術が言語モデルの能力を高める上で極めて重要な役割を果たしていることを目撃しています。 OpenaiのGPT-4やAnthropicのClaudeなどの独自のモデルは市場を支配していますが、トレーニング後のデータと方法論へのアクセスが制限されているため、オープンソースの代替品が遅れていることがよくあります。 Tülu3は、革新的な技術と厳密な評価方法を組み込んだ、最先端のオープンソース後の訓練後のフレームワークを導入することにより、このギャップを橋渡しします。この記事では、Tülu3405B AIモデルを掘り下げて、トレーニングプロセスとアクセシビリティを調査します。
主要な学習目標:
Tülu3オープンソースモデルを理解してください
モデルの機能を把握します。-
Tülu3の4段階のトレーニング後のパイプラインを探索します
- Tülu3405bAIチャットボットへのアクセス方法を学ぶ。
- tülu3のパフォーマンスを、Llama 3.1 8b-instructなどの既存のモデルと比較してください。
-
- この記事は、データサイエンスブログの一部です
目次:
Tülu3とは何ですか?
tülu3データ
トレーニング方法
評価方法
- llama-3.1-tulu-3-405b
へのアクセス
- ステップ1:Huggingface
を介してモデルをロードします
- ステップ2:VLLM
で実行
- ステップ3:チャットテンプレートを利用
-
- パフォーマンスと比較
- Tülu3の重要な貢献
- 結論
よくある質問
-
- tülu3とは?
AIのアレン研究所とワシントン大学のTülu3とのコラボレーションを通じて開発されたTülu3は、トレーニング後のデータセット、方法論、および評価フレームワークに関する完全な透明性を保証します。 Llama 3.1ベースモデルの上に構築されたTülu3は、GPT-4o-MiniやClaude 3.5-Haikuなどの閉じたモデルに匹敵する他の命令チューニングオープンモデルのパフォーマンスを上回ります。 以下を含む、さまざまなスキルドメインでオープンソース言語モデルを改良するように設計されています。
- 知識検索(MMLUベンチマーク)
- 推論(Bigbenchhard、drop)
数学機能(GSM8K、MATH DATASET)
コーディングの習熟度(Humanval、codealpaca)
命令アドヒアランス(ifeval、alpacaeval 2)
安全性とコンプライアンス(Tülu3Safety Suite)
-
- Tülu3データデータは、言語モデルのトレーニングと洗練において最も重要です。 Tülu3は、公的に利用可能なリソースと合成的に生成されたデータを組み合わせた、多様で細かくキュレーションされたデータセットを利用しています。 情報源は次のとおりです
- パブリックデータセット(Flan V2、オープンアシスタント、ロボットなし、WildChat)
- スキル固有のデータセット(numinamath、サイリフ、openmathinstruct)
- 数学、コーディング、次の命令などのスキルのためにペルソナ主導のアプローチを使用して生成された合成データセット
非コンプライアンスと安全データ(Wildjailbreak、Coconot、WildGuardmix)-
重要なステップには、テストセットの汚染を防ぐための迅速な除染が含まれます。8グラムマッチングを使用して、評価データがトレーニングデータと重複しないようにします。
トレーニング方法
Tülu3は、トレーニング後の4段階のパイプラインを採用しています
データキュレーション:プロンプトはさまざまなデータセットからキュレーションされ、特定のスキルのために合成的に生成され、厳密な除染を受けます。
-
監視された微調整(SFT):高品質の命令に従うデータがモデルを訓練します。データの混合実験では、タスク全体のパフォーマンスを最適化します
- 優先微調整(dpo):ペアワイズ優先データ微調整モデル。オンポリティデータは、Tülu3出力と他のモデルと比較されます
検証可能な報酬による補強学習(RLVR):この新しいRLアプローチは検証可能な正解のみ、特に数学と正確な指示に有益です。
- 評価方法
- Tülu3は、Tülu3Evalを紹介します。
開発評価(ガイドモデルの改善)
目に見えない評価(過剰適合と一般化の測定)
安全評価(コンプライアンスと堅牢性の評価)
ベンチマークには、MMLU、GSM8K、BigbenchHard、Humanval、およびAlpacaeval 2。すべての評価と除染ツールがオープンソーリングされます。
llama-3.1-tulu-3-405b
- へのアクセス
Tülu3は、高度な指導に従うモデルファミリーです。 llama-3.1-tulu-3-405b:- の使用方法は次のとおりです
- ステップ1:Huggingface
ステップ2:vllm
での実行
ステップ3:チャットテンプレートを利用
パフォーマンスと比較
from transformers import AutoModelForCausalLM
tulu_model = AutoModelForCausalLM.from_pretrained("allenai/Llama-3.1-Tulu-3-405B")
ログイン後にコピー
Tülu3は、Open-Weightモデルの間で最新の結果を達成し、Llama 3.1 Instruct、Mistral、Qwen 2.5の指示を上回ります。 70Bモデルスケールでは、Claude 3.5 HaikuとGPT-4o-Miniに匹敵します。
vllm serve allenai/Llama-3.1-Tulu-3-405B --max_model_len=8192
ログイン後にコピー
Tülu3の重要な貢献Tülu3は、トレーニング後のオープン言語モデルを大幅に進めます
- 透明性と再現性のためのオープンソーシングデータセット、コード、およびトレーニングレシピ。
高度な除染戦略の実装。
スケーラブルな好みの調整方法論を使用して- 。
- 検証可能な報酬(RLVR)で補強学習を導入します。
- 堅牢で再現可能な評価フレームワークを提供します
- 結論
Tülu3は、オープンウェイト言語モデルの新しいベンチマークを設定し、オープンソースモデルが独自のソリューションと競合できることを示しています。 そのオープンソースの性質は、さらなる革新と研究を促進します
よくある質問
Q1。 Tülu3とは何ですか? A.
q2。 RLVRはパフォーマンスをどのように改善しますか?A.検証的に正しい出力のみに報いることにより。
q3。 Tülu3を微調整できますか?
A.はい、すべてのリソースはオープンソースです。
Q4。 Tülu3はGPT-4?Aと比較してどのように比較されますか?
Q5。 Tülu3にアクセスできます。
(注:画像URLは変更されていません。)
以上がTülu3405b:トレーニング後のオープン言語モデルの前進の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。