Rumah > Peranti teknologi > AI > Tülu 3 405b: Memajukan Model Bahasa Terbuka Pasca Latihan

Tülu 3 405b: Memajukan Model Bahasa Terbuka Pasca Latihan

Joseph Gordon-Levitt
Lepaskan: 2025-03-06 10:09:10
asal
869 orang telah melayarinya

Tülu 3: Rangka Kerja Latihan Pasca Revolusi Revolusi untuk Model Bahasa

Bidang pemprosesan bahasa semulajadi (NLP) telah menyaksikan kemajuan yang luar biasa, dengan teknik pasca latihan memainkan peranan penting dalam meningkatkan keupayaan model bahasa. Walaupun model proprietari seperti GPT-4 OpenAI dan Claude Anthropic menguasai pasaran, alternatif sumber terbuka sering ketinggalan kerana akses terhad kepada data dan metodologi pasca latihan. Tülu 3 menjembatani jurang ini dengan memperkenalkan kerangka kerja pasca latihan yang canggih dan terbuka sepenuhnya, menggabungkan teknik inovatif dan kaedah penilaian yang ketat. Artikel ini menyelidiki model Tülu 3 405b AI, meneroka proses latihan dan kebolehcapaiannya.

Objektif Pembelajaran Utama:

  • memahami model sumber terbuka Tülu 3.
  • memahami fungsi model.
  • meneroka saluran paip selepas latihan Tülu 3 di peringkat 3.
  • Ketahui cara mengakses chatbot Tülu 3 405b ai.
  • Bandingkan prestasi Tülu 3 terhadap model sedia ada seperti Llama 3.1 8b-Instruct.
Artikel ini adalah sebahagian daripada Blogathon Sains Data.

Jadual Kandungan:

Apa itu Tülu 3?

tülu 3 data
  • Metodologi Latihan
  • Metodologi Penilaian
  • Mengakses llama-3.1-tulu-3-405b
  • Langkah 1: Memuatkan model melalui Huggingface
  • Langkah 2: Pelaksanaan dengan VLLM
    • Langkah 3: Menggunakan templat sembang
    • Prestasi & Perbandingan
    sumbangan utama Tülu 3
  • Kesimpulan
  • Soalan Lazim
  • Apa itu Tülu 3?

dibangunkan melalui kerjasama antara Institut Allen untuk AI dan University of Washington, Tülu 3 memastikan ketelusan lengkap mengenai dataset pasca latihan, metodologi, dan rangka kerja penilaian. Dibina di atas model asas Llama 3.1, Tülu 3 melepasi prestasi model terbuka yang lain, walaupun menandingi model tertutup seperti GPT-4O-Mini dan Claude 3.5-HAIKU. Ia direka untuk memperbaiki model bahasa sumber terbuka di pelbagai domain kemahiran, termasuk:

Pengambilan Pengetahuan (penanda aras MMLU)

Penaakulan (bigBenchhard, drop)
  • Keupayaan Matematik (GSM8K, Dataset Matematik)
  • Pengekodan Pengekodan (HumanEval, Codealpaca)
  • pengajaran kepatuhan (ifeval, alpacaeval 2)
  • Keselamatan dan Pematuhan (Tülu 3 Safety Suite)
  • tülu 3 data

Data adalah yang paling penting dalam model latihan dan penapisan. Tülu 3 menggunakan dataset yang pelbagai dan teliti yang menggabungkan sumber yang tersedia secara terbuka dengan data yang dihasilkan secara sintetik. Sumber termasuk:

  • dataset awam (flan v2, pembantu terbuka, tiada robot, liar)
  • dataset khusus kemahiran (numinamath, sciriff, openmathinstruct)
  • dataset sintetik yang dijana menggunakan pendekatan yang didorong oleh persona untuk kemahiran seperti matematik, pengekodan, dan arahan berikut
  • data ketidakpatuhan & keselamatan (Wildjailbreak, Coconot, Wildguardmix)

Langkah kritikal melibatkan dekontaminasi segera untuk mencegah pencemaran set ujian, menggunakan padanan 8 gram untuk memastikan data penilaian tidak bertindih dengan data latihan.

Metodologi Latihan

Tülu 3 405b: Advancing Open Language Model Post-Training

Tülu 3 menggunakan saluran paip selepas latihan empat peringkat:

  1. Curation Data: Prompt dikendalikan dari pelbagai dataset dan dihasilkan secara sintetik untuk kemahiran tertentu, menjalani dekontaminasi yang ketat.
  2. Penalaan halus (SFT): Arahan berkualiti tinggi-mengikuti data melatih model. Eksperimen pencampuran data mengoptimumkan prestasi merentasi tugas.
  3. Keutamaan Fine-Tuning (DPO): Model Data Keutamaan Pairwise Fine-Tunes. Data mengenai dasar membandingkan output Tülu 3 terhadap model lain.
  4. Pembelajaran tetulang dengan ganjaran yang dapat disahkan (RLVR): Pendekatan RL novel ini hanya memberi jawapan yang betul, terutamanya bermanfaat untuk matematik dan arahan yang tepat berikut.

Kaedah penilaian

Tülu 3 memperkenalkan Tülu 3 Eval, rangka kerja penilaian yang standard dan telus yang merangkumi:

    Penilaian Pembangunan (Penambahbaikan Model Panduan)
  • penilaian yang tidak kelihatan (mengukur overfitting dan generalisasi)
  • Penilaian Keselamatan (Menilai Pematuhan dan Kekukuhan)
Penanda aras termasuk MMLU, GSM8K, BigBenchhard, HumanEval, dan Alpacaeval 2. Semua penilaian dan alat dekontaminasi terbuka.

Mengakses llama-3.1-tulu-3-405b

Tülu 3 adalah arahan model yang maju-mengikuti. Inilah cara menggunakan llama-3.1-tulu-3-405b:

Langkah 1: Memuatkan model melalui Huggingface

Langkah 2: Pelaksanaan dengan VLLM
from transformers import AutoModelForCausalLM
tulu_model = AutoModelForCausalLM.from_pretrained("allenai/Llama-3.1-Tulu-3-405B")
Salin selepas log masuk

Langkah 3: Menggunakan templat sembang
vllm serve allenai/Llama-3.1-Tulu-3-405B --max_model_len=8192
Salin selepas log masuk

Prestasi & Perbandingan
<code>How are you doing?

I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?</code>
Salin selepas log masuk

Tülu 3 mencapai hasil yang terkini di kalangan model terbuka, mengatasi Llama 3.1 Mengajar, Mistral, dan Qwen 2.5. Pada skala model 70B, ia menyaingi Claude 3.5 Haiku dan Gpt-4o-Mini.

Tülu 3 405b: Advancing Open Language Model Post-Training

sumbangan utama Tülu 3

tülu 3 dengan ketara memajukan model bahasa terbuka selepas latihan oleh:

  • dataset, kod, dan resipi latihan terbuka untuk ketelusan dan kebolehulangan.
  • Melaksanakan strategi dekontaminasi lanjutan.
  • menggunakan metodologi penalaan keutamaan berskala.
  • memperkenalkan pembelajaran tetulang dengan ganjaran yang dapat disahkan (RLVR).
  • menyediakan rangka kerja penilaian yang mantap dan boleh dihasilkan.

Kesimpulan

Tülu 3 menetapkan penanda aras baru untuk model bahasa terbuka, menunjukkan bahawa model sumber terbuka dapat bersaing dengan penyelesaian proprietari. Sumber sumbernya memupuk inovasi dan penyelidikan selanjutnya.

Soalan -soalan yang sering ditanya

Q1. Apakah Tülu 3?

Q2. Bagaimanakah RLVR meningkatkan prestasi?

A. Dengan memberi ganjaran hanya output yang betul. Q3. Bolehkah saya menyempurnakan Tülu 3?

A. Ya, semua sumber adalah sumber terbuka.

Q4. Bagaimanakah Tülu 3 dibandingkan dengan GPT-4?

Q5. Di mana saya boleh mengakses Tülu 3? A. Memeluk muka dan github.

(nota: URL imej kekal tidak berubah.)

Atas ialah kandungan terperinci Tülu 3 405b: Memajukan Model Bahasa Terbuka Pasca Latihan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan