Latihan Model Bahasa Besar: Dari TRPO ke GRPO-AI-php.cn

Latihan Model Bahasa Besar: Dari TRPO ke GRPO

王林

Lepaskan： 2025-02-26 04:41:08

asal

990 orang telah melayarinya

DeepSeek: Menyelam dalam ke dalam pembelajaran tetulang untuk LLMS

Kejayaan baru -baru ini DeepSeek, mencapai prestasi yang mengagumkan pada kos yang lebih rendah, menyoroti kepentingan kaedah latihan model bahasa besar (LLM). Artikel ini memberi tumpuan kepada aspek pembelajaran tetulang (RL), meneroka algoritma GRPO yang lebih baru. Kami akan meminimumkan matematik kompleks untuk menjadikannya mudah diakses, dengan mengandaikan kebiasaan asas dengan pembelajaran mesin, pembelajaran mendalam, dan LLMS.

Tiga tiang latihan LLM

Training Large Language Models: From TRPO to GRPO

latihan LLM biasanya melibatkan tiga fasa utama:

Pra-Training: Model belajar untuk meramalkan token seterusnya dalam urutan dari token sebelumnya menggunakan dataset besar.
diselia dengan baik (SFT): Data yang disasarkan menyempurnakan model, menyelaraskannya dengan arahan khusus.
Pembelajaran Penguatkuasaan (RLHF): Tahap ini, fokus artikel ini, lebih lanjut menyempurnakan tindak balas untuk memadankan keutamaan manusia yang lebih baik melalui maklum balas langsung.

Asas Pembelajaran Penguatkuasaan

~~Pembelajaran Penguatkuasaan melibatkan ejen~~

berinteraksi dengan persekitaran . Ejen itu wujud dalam state , mengambil tindakan untuk beralih ke negeri -negeri baru. Setiap tindakan mengakibatkan ganjaran dari alam sekitar, membimbing tindakan masa depan ejen. Fikirkan robot yang menavigasi labirin: Kedudukannya adalah keadaan, pergerakan adalah tindakan, dan sampai ke pintu keluar memberikan ganjaran positif. rl di llms: rupa terperinci

Dalam latihan LLM, komponennya adalah:

ejen: llm sendiri.
Alam Sekitar: Faktor luaran seperti arahan pengguna, sistem maklum balas, dan maklumat kontekstual.
Tindakan: token LLM menjana sebagai tindak balas kepada pertanyaan.
State: pertanyaan semasa dan token yang dihasilkan (tindak balas separa).
ganjaran: biasanya ditentukan oleh model ganjaran yang berasingan terlatih pada data annotasi manusia, respons ranking untuk memberikan skor. Tanggapan berkualiti tinggi menerima ganjaran yang lebih tinggi. Ganjaran yang lebih mudah, berasaskan peraturan adalah mungkin dalam kes-kes tertentu, seperti DeepSeekMath.

Dasar menentukan tindakan yang perlu diambil. Untuk LLM, ia adalah pengagihan kebarangkalian ke atas token yang mungkin, digunakan untuk mencuba token seterusnya. Latihan RL menyesuaikan parameter dasar (berat model) untuk memihak kepada token ganjaran yang lebih tinggi. Dasar ini sering diwakili sebagai:

Training Large Language Models: From TRPO to GRPO

Inti RL adalah mencari dasar yang optimum. Tidak seperti pembelajaran yang diawasi, kami menggunakan ganjaran untuk membimbing pelarasan dasar.

trpo (pengoptimuman dasar rantau amanah)

~~TRPO menggunakan fungsi kelebihan, sama dengan fungsi kerugian dalam pembelajaran yang diawasi, tetapi berasal dari ganjaran:~~

TRPO memaksimumkan objektif pengganti, dikekang untuk mencegah penyimpangan dasar yang besar dari lelaran sebelumnya, memastikan kestabilan: Training Large Language Models: From TRPO to GRPO

ppo (pengoptimuman dasar proksimal)

Training Large Language Models: From TRPO to GRPO PPO, kini lebih disukai untuk LLMs seperti ChatGPT dan Gemini, memudahkan TRPO dengan menggunakan objektif pengganti yang dipotong, mengehadkan kemas kini dasar secara tersirat dan meningkatkan kecekapan pengiraan. Fungsi objektif PPO ialah:

GRPO (pengoptimuman dasar relatif kumpulan)

Training Large Language Models: From TRPO to GRPO

Latihan GRPO Streamlines dengan menghapuskan model nilai berasingan. Untuk setiap pertanyaan, ia menghasilkan sekumpulan respons dan mengira kelebihan sebagai skor Z berdasarkan ganjaran mereka:

Ini memudahkan proses dan sesuai untuk keupayaan LLM untuk menghasilkan pelbagai respons. GRPO juga menggabungkan istilah perbezaan KL, membandingkan dasar semasa dengan dasar rujukan. Formulasi GRPO terakhir ialah:

Training Large Language Models: From TRPO to GRPO

Kesimpulan

Pembelajaran tetulang, terutamanya PPO dan GRPO yang lebih baru, adalah penting untuk latihan LLM moden. Setiap kaedah membina asas RL, menawarkan pendekatan yang berbeza untuk mengimbangi kestabilan, kecekapan, dan penjajaran manusia. Kejayaan DeepSeek memanfaatkan kemajuan ini, bersama dengan inovasi lain. Pembelajaran Penguatkuasaan bersedia untuk memainkan peranan yang semakin dominan dalam memajukan keupayaan LLM.

rujukan:

[1] "Asas model bahasa besar", 2025.

https://www.php.cn/link/20e169b48c8f8698887e2bbe1c5c3ea65
Medium , 2023. [4] L. Weng. "An Overview of Reinforcement Learning," 2018. Available at:
[5] "DeepSeek-R1: Incentivizing keupayaan penalaran di LLMS melalui pembelajaran tetulang", 2025. [6] "DeepSeekMath: Menolak Had Penalaran Matematik dalam Model Bahasa Terbuka", 2025. [7] "Pengoptimuman Dasar Wilayah Amanah", 2017.

Atas ialah kandungan terperinci Latihan Model Bahasa Besar: Dari TRPO ke GRPO. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!