DeepSeek: Menyelam dalam ke dalam pembelajaran tetulang untuk LLMS
Kejayaan baru -baru ini DeepSeek, mencapai prestasi yang mengagumkan pada kos yang lebih rendah, menyoroti kepentingan kaedah latihan model bahasa besar (LLM). Artikel ini memberi tumpuan kepada aspek pembelajaran tetulang (RL), meneroka algoritma GRPO yang lebih baru. Kami akan meminimumkan matematik kompleks untuk menjadikannya mudah diakses, dengan mengandaikan kebiasaan asas dengan pembelajaran mesin, pembelajaran mendalam, dan LLMS.
Tiga tiang latihan LLM
latihan LLM biasanya melibatkan tiga fasa utama:
- Pra-Training: Model belajar untuk meramalkan token seterusnya dalam urutan dari token sebelumnya menggunakan dataset besar.
- diselia dengan baik (SFT): Data yang disasarkan menyempurnakan model, menyelaraskannya dengan arahan khusus.
- Pembelajaran Penguatkuasaan (RLHF): Tahap ini, fokus artikel ini, lebih lanjut menyempurnakan tindak balas untuk memadankan keutamaan manusia yang lebih baik melalui maklum balas langsung.
Asas Pembelajaran Penguatkuasaan
Pembelajaran Penguatkuasaan melibatkan ejen
berinteraksi dengan persekitaran . Ejen itu wujud dalam state , mengambil tindakan untuk beralih ke negeri -negeri baru. Setiap tindakan mengakibatkan ganjaran dari alam sekitar, membimbing tindakan masa depan ejen. Fikirkan robot yang menavigasi labirin: Kedudukannya adalah keadaan, pergerakan adalah tindakan, dan sampai ke pintu keluar memberikan ganjaran positif.
rl di llms: rupa terperinci
Dalam latihan LLM, komponennya adalah:
- ejen: llm sendiri.
- Alam Sekitar: Faktor luaran seperti arahan pengguna, sistem maklum balas, dan maklumat kontekstual.
- Tindakan: token LLM menjana sebagai tindak balas kepada pertanyaan.
- State: pertanyaan semasa dan token yang dihasilkan (tindak balas separa).
- ganjaran: biasanya ditentukan oleh model ganjaran yang berasingan terlatih pada data annotasi manusia, respons ranking untuk memberikan skor. Tanggapan berkualiti tinggi menerima ganjaran yang lebih tinggi. Ganjaran yang lebih mudah, berasaskan peraturan adalah mungkin dalam kes-kes tertentu, seperti DeepSeekMath.
Dasar menentukan tindakan yang perlu diambil. Untuk LLM, ia adalah pengagihan kebarangkalian ke atas token yang mungkin, digunakan untuk mencuba token seterusnya. Latihan RL menyesuaikan parameter dasar (berat model) untuk memihak kepada token ganjaran yang lebih tinggi. Dasar ini sering diwakili sebagai:
Inti RL adalah mencari dasar yang optimum. Tidak seperti pembelajaran yang diawasi, kami menggunakan ganjaran untuk membimbing pelarasan dasar.
trpo (pengoptimuman dasar rantau amanah)
TRPO menggunakan fungsi kelebihan, sama dengan fungsi kerugian dalam pembelajaran yang diawasi, tetapi berasal dari ganjaran:
TRPO memaksimumkan objektif pengganti, dikekang untuk mencegah penyimpangan dasar yang besar dari lelaran sebelumnya, memastikan kestabilan:
ppo (pengoptimuman dasar proksimal)
PPO, kini lebih disukai untuk LLMs seperti ChatGPT dan Gemini, memudahkan TRPO dengan menggunakan objektif pengganti yang dipotong, mengehadkan kemas kini dasar secara tersirat dan meningkatkan kecekapan pengiraan. Fungsi objektif PPO ialah:
GRPO (pengoptimuman dasar relatif kumpulan)
Latihan GRPO Streamlines dengan menghapuskan model nilai berasingan. Untuk setiap pertanyaan, ia menghasilkan sekumpulan respons dan mengira kelebihan sebagai skor Z berdasarkan ganjaran mereka:
Ini memudahkan proses dan sesuai untuk keupayaan LLM untuk menghasilkan pelbagai respons. GRPO juga menggabungkan istilah perbezaan KL, membandingkan dasar semasa dengan dasar rujukan. Formulasi GRPO terakhir ialah:
Kesimpulan
Pembelajaran tetulang, terutamanya PPO dan GRPO yang lebih baru, adalah penting untuk latihan LLM moden. Setiap kaedah membina asas RL, menawarkan pendekatan yang berbeza untuk mengimbangi kestabilan, kecekapan, dan penjajaran manusia. Kejayaan DeepSeek memanfaatkan kemajuan ini, bersama dengan inovasi lain. Pembelajaran Penguatkuasaan bersedia untuk memainkan peranan yang semakin dominan dalam memajukan keupayaan LLM.
rujukan:
[1] "Asas model bahasa besar", 2025.
[2] "Pembelajaran Penguatkuasaan." Enaris. Boleh didapati di: - https://www.php.cn/link/20e169b48c8f8698887e2bbe1c5c3ea65
[3] Y. Gokhale. "Pengenalan kepada LLM dan generatif AI Bahagian 5: RLHF," - Medium , 2023.
[4] L. Weng. "An Overview of Reinforcement Learning," 2018. Available at:
https://www.php.cn/link/fc42bad715bcb9767ddd95a239552434-
[5] "DeepSeek-R1: Incentivizing keupayaan penalaran di LLMS melalui pembelajaran tetulang", 2025.
[6] "DeepSeekMath: Menolak Had Penalaran Matematik dalam Model Bahasa Terbuka", 2025.
[7] "Pengoptimuman Dasar Wilayah Amanah", 2017.
Atas ialah kandungan terperinci Latihan Model Bahasa Besar: Dari TRPO ke GRPO. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!