Tülu3405b：トレーニング後のオープン言語モデルの前進-AI-php.cn

Tülu3405b：トレーニング後のオープン言語モデルの前進

Joseph Gordon-Levitt

リリース： 2025-03-06 10:09:10

オリジナル

870 人が閲覧しました

Tülu3：言語モデルのための革新的なオープンソース後のトレーニング枠組

自然言語処理の分野（NLP）は、訓練後の技術が言語モデルの能力を高める上で極めて重要な役割を果たしていることを目撃しています。 OpenaiのGPT-4やAnthropicのClaudeなどの独自のモデルは市場を支配していますが、トレーニング後のデータと方法論へのアクセスが制限されているため、オープンソースの代替品が遅れていることがよくあります。 Tülu3は、革新的な技術と厳密な評価方法を組み込んだ、最先端のオープンソース後の訓練後のフレームワークを導入することにより、このギャップを橋渡しします。この記事では、Tülu3405B AIモデルを掘り下げて、トレーニングプロセスとアクセシビリティを調査します。

主要な学習目標：

Tülu3オープンソースモデルを理解してください

Tülu3405bAIチャットボットへのアクセス方法を学ぶ。
tülu3のパフォーマンスを、Llama 3.1 8b-instructなどの既存のモデルと比較してください。
この記事は、データサイエンスブログの一部です

Tülu3とは何ですか？

tülu3データ

トレーニング方法

評価方法

llama-3.1-tulu-3-405b
ステップ1：Huggingface
ステップ2：VLLM
ステップ3：チャットテンプレートを利用
- パフォーマンスと比較
- Tülu3の重要な貢献
- 結論
よくある質問
tülu3とは？ AIのアレン研究所とワシントン大学のTülu3とのコラボレーションを通じて開発されたTülu3は、トレーニング後のデータセット、方法論、および評価フレームワークに関する完全な透明性を保証します。 Llama 3.1ベースモデルの上に構築されたTülu3は、GPT-4o-MiniやClaude 3.5-Haikuなどの閉じたモデルに匹敵する他の命令チューニングオープンモデルのパフォーマンスを上回ります。以下を含む、さまざまなスキルドメインでオープンソース言語モデルを改良するように設計されています。
知識検索（MMLUベンチマーク）
推論（Bigbenchhard、drop）

数学機能（GSM8K、MATH DATASET）

コーディングの習熟度（Humanval、codealpaca）

命令アドヒアランス（ifeval、alpacaeval 2）

安全性とコンプライアンス（Tülu3Safety Suite）

Tülu3データデータは、言語モデルのトレーニングと洗練において最も重要です。 Tülu3は、公的に利用可能なリソースと合成的に生成されたデータを組み合わせた、多様で細かくキュレーションされたデータセットを利用しています。情報源は次のとおりです
- パブリックデータセット（Flan V2、オープンアシスタント、ロボットなし、WildChat）
- スキル固有のデータセット（numinamath、サイリフ、openmathinstruct）
- 数学、コーディング、次の命令などのスキルのためにペルソナ主導のアプローチを使用して生成された合成データセット
重要なステップには、テストセットの汚染を防ぐための迅速な除染が含まれます。8グラムマッチングを使用して、評価データがトレーニングデータと重複しないようにします。
トレーニング方法

Tülu3は、トレーニング後の4段階のパイプラインを採用しています

データキュレーション：
1. 監視された微調整（SFT）：高品質の命令に従うデータがモデルを訓練します。データの混合実験では、タスク全体のパフォーマンスを最適化します
2. 優先微調整（dpo）：ペアワイズ優先データ微調整モデル。オンポリティデータは、Tülu3出力と他のモデルと比較されます検証可能な報酬による補強学習（RLVR）：この新しいRLアプローチは検証可能な正解のみ、特に数学と正確な指示に有益です。
3. 評価方法
4. Tülu3は、Tülu3Evalを紹介します。開発評価（ガイドモデルの改善）
安全評価（コンプライアンスと堅牢性の評価）
ベンチマークには、MMLU、GSM8K、BigbenchHard、Humanval、およびAlpacaeval 2。すべての評価と除染ツールがオープンソーリングされます。
llama-3.1-tulu-3-405b
- へのアクセス
- の使用方法は次のとおりです
- ステップ1：Huggingface
ステップ2：vllm

での実行
ステップ3：チャットテンプレートを利用

パフォーマンスと比較
```
from transformers import AutoModelForCausalLM
tulu_model = AutoModelForCausalLM.from_pretrained("allenai/Llama-3.1-Tulu-3-405B")
```
ログイン後にコピー
Tülu3は、Open-Weightモデルの間で最新の結果を達成し、Llama 3.1 Instruct、Mistral、Qwen 2.5の指示を上回ります。 70Bモデルスケールでは、Claude 3.5 HaikuとGPT-4o-Miniに匹敵します。
```
vllm serve allenai/Llama-3.1-Tulu-3-405B --max_model_len=8192
```
ログイン後にコピー
Tülu3の重要な貢献Tülu3は、トレーニング後のオープン言語モデルを大幅に進めます
- 透明性と再現性のためのオープンソーシングデータセット、コード、およびトレーニングレシピ。高度な除染戦略の実装。
- 。
- 検証可能な報酬（RLVR）で補強学習を導入します。
- 堅牢で再現可能な評価フレームワークを提供します
- 結論
Tülu3は、オープンウェイト言語モデルの新しいベンチマークを設定し、オープンソースモデルが独自のソリューションと競合できることを示しています。そのオープンソースの性質は、さらなる革新と研究を促進します
よくある質問

Q1。 Tülu3とは何ですか？ A.
q2。 RLVRはパフォーマンスをどのように改善しますか？
A.検証的に正しい出力のみに報いることにより。 q3。 Tülu3を微調整できますか？
A.はい、すべてのリソースはオープンソースです。
Q4。 Tülu3はGPT-4？Aと比較してどのように比較されますか？

Q5。 Tülu3にアクセスできます。（注：画像URLは変更されていません。）