Mengapa Nilai Q-Learning Saya Meletup? Kisah Ganjaran Yang Dilambungkan dan Had Mata Terapung.-Golang-php.cn

Mengapa Nilai Q-Learning Saya Meletup? Kisah Ganjaran Yang Dilambungkan dan Had Mata Terapung.

Mary-Kate Olsen

Lepaskan： 2024-10-26 00:50:28

asal

797 orang telah melayarinya

Why Are My Q-Learning Values Exploding? A Tale of Inflated Rewards and Floating Point Limits.

Nilai Q-Pembelajaran Melebihi Ambang

Dalam percubaan untuk melaksanakan Q-Learning, satu isu timbul di mana nilai state-action melebihi nilai had pembolehubah titik terapung berketepatan ganda. Pelaksanaan awal mengaitkan masalah ini dengan penggunaan agent.prevState dan bukannya tuple state-action. Walau bagaimanapun, punca utama dikenal pasti sebagai pengiraan prevScore.

Memahami Isu

Q-Learning mengemas kini nilai Q(s, a) berdasarkan formula:

Q(s, a) = Q(s, a) + (LearningRate * (prevScore + (DiscountFactor * reward) - Q(s, a)))

Salin selepas log masuk

Aspek penting ialah prevScore mewakili ganjaran untuk tindakan keadaan sebelumnya, bukan nilai Q. Dalam pelaksanaan awal, prevScore mengandungi nilai Q bagi langkah sebelumnya dan bukannya ganjaran itu sendiri, menghasilkan nilai melambung yang melebihi had titik terapung.

Resolusi

Dengan menyemak semula prevScore untuk memegang ganjaran sebenar untuk langkah sebelumnya, proses pembelajaran berkelakuan seperti yang diharapkan. Nilai maksimum selepas 2M episod berkurangan dengan ketara, dan model menunjukkan tingkah laku yang munasabah semasa permainan.

Peranan Ganjaran

Adalah penting untuk mengambil perhatian pengaruh fungsi ganjaran dalam pembelajaran pengukuhan. Matlamatnya adalah untuk memaksimumkan jumlah ganjaran yang diharapkan. Jika ganjaran diberikan untuk setiap langkah masa, algoritma akan memilih untuk memanjangkan permainan, yang membawa kepada nilai-Q yang terlalu tinggi. Dalam contoh ini, memperkenalkan ganjaran negatif untuk setiap langkah kali menggalakkan ejen untuk menyasarkan kemenangan, membawa nilai-Q dalam had yang sesuai.

Atas ialah kandungan terperinci Mengapa Nilai Q-Learning Saya Meletup? Kisah Ganjaran Yang Dilambungkan dan Had Mata Terapung.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!