Jadual Kandungan
Pembelajaran peneguhan tanpa model
Pembelajaran peneguhan berasaskan model
Bebas model VS berasaskan model
Mod pembelajaran berbilang
Bahan rujukan:
Rumah Peranti teknologi AI Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

May 09, 2023 pm 09:49 PM
ai pembelajaran pengukuhan berasaskan model

​Mengenai pembelajaran pengukuhan, banyak adrenalin penyelidik melonjak secara tidak terkawal! Ia memainkan peranan yang sangat penting dalam sistem AI permainan, robot moden, sistem reka bentuk cip dan aplikasi lain.

Terdapat pelbagai jenis algoritma pembelajaran pengukuhan, tetapi ia terbahagi kepada dua kategori: "berasaskan model" dan "bebas model".

Dalam perbualan dengan TechTalks, ahli sains saraf dan pengarang "The Birth of Intelligence" Daeyeol Lee membincangkan model pembelajaran pengukuhan yang berbeza dalam manusia dan haiwan, kecerdasan buatan dan kecerdasan semula jadi serta hala tuju penyelidikan masa hadapan .​

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

Pembelajaran peneguhan tanpa model

Pada akhir abad ke-19, "undang-undang kesan" yang dicadangkan oleh ahli psikologi Edward Thorndike menjadi asas model- pembelajaran pengukuhan percuma . Thorndike mencadangkan bahawa tingkah laku yang mempunyai kesan positif dalam situasi tertentu lebih berkemungkinan berlaku lagi dalam situasi itu, manakala tingkah laku yang mempunyai kesan negatif kurang berkemungkinan berlaku lagi.

Thorndike meneroka "hukum kesan" ini dalam percubaan. Dia meletakkan seekor kucing di dalam kotak maze dan mengukur masa yang diambil untuk kucing itu melarikan diri dari kotak itu. Untuk melarikan diri, kucing mesti mengendalikan satu siri alat, seperti tali dan tuas. Thorndike memerhatikan bahawa semasa kucing berinteraksi dengan kotak teka-teki, ia mempelajari tingkah laku yang membantu melarikan diri. Apabila masa berlalu, kucing itu melarikan diri dari kotak dengan lebih cepat dan lebih cepat. Thorndike membuat kesimpulan bahawa kucing boleh belajar daripada ganjaran dan hukuman yang diberikan oleh tingkah laku mereka. "Hukum Kesan" kemudiannya membuka jalan kepada behaviorisme. Behaviorisme ialah satu cabang psikologi yang cuba menerangkan tingkah laku manusia dan haiwan dari segi rangsangan dan tindak balas. "Hukum Kesan" juga merupakan asas pembelajaran peneguhan tanpa model. Dalam pembelajaran peneguhan tanpa model, ejen melihat dunia dan kemudian mengambil tindakan sambil mengukur ganjaran.

Dalam pembelajaran peneguhan tanpa model, tiada pengetahuan langsung atau model dunia. Ejen RL mesti mengalami secara langsung keputusan setiap tindakan melalui percubaan dan kesilapan.

Pembelajaran peneguhan berasaskan model

"Hukum Kesan" Thorndike kekal popular sehingga tahun 1930-an. Seorang lagi ahli psikologi pada masa itu, Edward Tolman, menemui satu pandangan penting sambil meneroka bagaimana tikus cepat belajar mengemudi labirin. Semasa eksperimennya, Tolman menyedari bahawa haiwan boleh belajar tentang persekitaran mereka tanpa tetulang.

Sebagai contoh, apabila tetikus dilepaskan dalam labirin, ia akan meneroka terowong secara bebas dan secara beransur-ansur memahami struktur persekitaran. Jika tikus itu kemudiannya diperkenalkan semula ke persekitaran yang sama dan dibekalkan dengan isyarat pengukuhan, seperti mencari makanan atau mencari jalan keluar, ia boleh mencapai matlamat lebih cepat daripada haiwan yang belum meneroka labirin. Tolman memanggil ini "pembelajaran terpendam", yang menjadi asas pembelajaran peneguhan berasaskan model. "Pembelajaran terpendam" membolehkan haiwan dan manusia membentuk gambaran mental dunia mereka, mensimulasikan senario hipotetikal dalam fikiran mereka dan meramalkan hasil.

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

Kelebihan pembelajaran tetulang berasaskan model ialah ia menghapuskan keperluan untuk ejen melakukan percubaan dan kesilapan dalam persekitaran. Perlu ditekankan bahawa pembelajaran pengukuhan berasaskan model telah berjaya terutamanya dalam membangunkan sistem kecerdasan buatan yang mampu menguasai permainan papan seperti catur dan Go, mungkin kerana persekitaran permainan ini bersifat deterministik.

Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan

Bebas model VS berasaskan model

Secara umumnya, pembelajaran peneguhan berasaskan model akan memakan masa yang sangat lama , ia mungkin Bahaya maut berlaku. "Secara pengiraan, pembelajaran tetulang berasaskan model adalah lebih kompleks," kata Lee "Mula-mula anda perlu mendapatkan model, melakukan simulasi mental, dan kemudian anda perlu mencari trajektori proses saraf dan kemudian mengambil tindakan. pembelajaran peneguhan berasaskan model tidak semestinya Ia lebih rumit daripada RL tanpa model "Apabila persekitaran sangat kompleks, jika ia boleh dimodelkan dengan model yang agak mudah (yang boleh diperolehi dengan cepat), maka simulasi akan menjadi lebih mudah. dan kos efektif.​

Mod pembelajaran berbilang

Malah, pembelajaran peneguhan berasaskan model mahupun pembelajaran peneguhan tanpa model adalah penyelesaian yang sempurna. Di mana-mana sahaja anda melihat sistem pembelajaran tetulang menyelesaikan masalah yang kompleks, kemungkinan besar sistem tersebut menggunakan kedua-dua pembelajaran tetulang berasaskan model dan tanpa model, dan mungkin juga lebih banyak bentuk pembelajaran. Penyelidikan dalam neurosains menunjukkan bahawa kedua-dua manusia dan haiwan mempunyai pelbagai cara pembelajaran, dan otak sentiasa bertukar antara mod ini pada bila-bila masa. Dalam tahun-tahun kebelakangan ini, terdapat peningkatan minat dalam mencipta sistem kecerdasan buatan yang menggabungkan pelbagai model pembelajaran pengukuhan. Penyelidikan terkini oleh saintis di UC San Diego menunjukkan bahawa menggabungkan pembelajaran tetulang tanpa model dan pembelajaran tetulang berasaskan model boleh mencapai prestasi unggul dalam tugas kawalan. "Jika anda melihat algoritma kompleks seperti AlphaGo, ia mempunyai kedua-dua elemen RL bebas model dan elemen RL berasaskan model," kata Lee "Ia mempelajari nilai keadaan berdasarkan konfigurasi papan. Ia pada asasnya RL tanpa model. tetapi Carian hadapan berasaskan model juga dilakukan 》

Walaupun pencapaian yang ketara, kemajuan dalam pembelajaran pengukuhan adalah perlahan. Sebaik sahaja model RL menghadapi persekitaran yang kompleks dan tidak dapat diramalkan, prestasinya mula merosot. ​

Lee berkata: "Saya rasa otak kita ialah dunia algoritma pembelajaran yang kompleks yang telah berkembang untuk mengendalikan pelbagai situasi yang berbeza

Selain daripada sentiasa bergerak antara mod pembelajaran ini Selain daripada beralih, otak juga berjaya mengekalkan dan mengemas kininya sepanjang masa, walaupun mereka tidak terlibat secara aktif dalam membuat keputusan.

Pakar psikologi Daniel Kahneman berkata: "Mengekalkan modul pembelajaran yang berbeza dan mengemas kininya secara serentak boleh membantu meningkatkan kecekapan dan ketepatan sistem kecerdasan buatan

Kita juga perlu memahami aspek lain - bagaimana untuk gunakan bias induktif yang betul dalam sistem AI untuk memastikan mereka mempelajari perkara yang betul dengan cara yang kos efektif. Berbilion tahun evolusi telah memberikan manusia dan haiwan kecenderungan induktif yang diperlukan untuk belajar dengan berkesan sambil menggunakan data sesedikit mungkin. Bias induktif boleh difahami sebagai meringkaskan peraturan daripada fenomena yang diperhatikan dalam kehidupan sebenar, dan kemudian meletakkan kekangan tertentu pada model, yang boleh memainkan peranan pemilihan model, iaitu memilih model yang lebih konsisten dengan peraturan sebenar daripada ruang hipotesis. "Kami mendapat sangat sedikit maklumat daripada persekitaran. Menggunakan maklumat itu, kami perlu membuat generalisasi," kata Lee "Sebabnya ialah otak mempunyai kecenderungan induktif, dan terdapat kecenderungan untuk membuat generalisasi daripada satu set contoh yang kecil. produk evolusi." , semakin ramai ahli sains saraf berminat dalam hal ini." Walau bagaimanapun, walaupun bias induktif mudah difahami dalam tugas pengecaman objek, ia menjadi kabur dalam masalah abstrak seperti membina hubungan sosial. Pada masa hadapan, masih banyak yang perlu kita ketahui~~~​

Bahan rujukan:

https://thenextweb.com/news/everything-you-need-to- tahu-tentang-pembelajaran-peneguhan-bebas-model-dan-berasaskan-model​

Atas ialah kandungan terperinci Daripada tikus berjalan dalam mez kepada AlphaGo mengalahkan manusia, pembangunan pembelajaran pengukuhan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Cara Melaksanakan Penyortiran Fail oleh Debian Readdir Apr 13, 2025 am 09:06 AM

Dalam sistem Debian, fungsi Readdir digunakan untuk membaca kandungan direktori, tetapi urutan yang dikembalikannya tidak ditentukan sebelumnya. Untuk menyusun fail dalam direktori, anda perlu membaca semua fail terlebih dahulu, dan kemudian menyusunnya menggunakan fungsi QSORT. Kod berikut menunjukkan cara menyusun fail direktori menggunakan ReadDir dan QSORT dalam sistem Debian:#termasuk#termasuk#termasuk#termasuk // fungsi perbandingan adat, yang digunakan untuk qSortintCompare (Constvoid*A, Constvoid*b) {Returnstrcmp (*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(*(

Cara Mengoptimumkan Prestasi Debian Readdir Cara Mengoptimumkan Prestasi Debian Readdir Apr 13, 2025 am 08:48 AM

Dalam sistem Debian, panggilan sistem Readdir digunakan untuk membaca kandungan direktori. Jika prestasinya tidak baik, cuba strategi pengoptimuman berikut: Memudahkan bilangan fail direktori: Split direktori besar ke dalam pelbagai direktori kecil sebanyak mungkin, mengurangkan bilangan item yang diproses setiap panggilan readdir. Dayakan Caching Kandungan Direktori: Bina mekanisme cache, kemas kini cache secara teratur atau apabila kandungan direktori berubah, dan mengurangkan panggilan kerap ke Readdir. Cafh memori (seperti memcached atau redis) atau cache tempatan (seperti fail atau pangkalan data) boleh dipertimbangkan. Mengamalkan struktur data yang cekap: Sekiranya anda melaksanakan traversal direktori sendiri, pilih struktur data yang lebih cekap (seperti jadual hash dan bukannya carian linear) untuk menyimpan dan mengakses maklumat direktori

Cara Menetapkan Tahap Log Debian Apache Cara Menetapkan Tahap Log Debian Apache Apr 13, 2025 am 08:33 AM

Artikel ini menerangkan cara menyesuaikan tahap pembalakan pelayan Apacheweb dalam sistem Debian. Dengan mengubah suai fail konfigurasi, anda boleh mengawal tahap maklumat log yang direkodkan oleh Apache. Kaedah 1: Ubah suai fail konfigurasi utama untuk mencari fail konfigurasi: Fail konfigurasi apache2.x biasanya terletak di direktori/etc/apache2/direktori. Nama fail mungkin apache2.conf atau httpd.conf, bergantung pada kaedah pemasangan anda. Edit Fail Konfigurasi: Buka Fail Konfigurasi dengan Kebenaran Root Menggunakan Editor Teks (seperti Nano): Sudonano/ETC/APACHE2/APACHE2.CONF

Bagaimana Debian Readdir Bersepadu Dengan Alat Lain Bagaimana Debian Readdir Bersepadu Dengan Alat Lain Apr 13, 2025 am 09:42 AM

Fungsi Readdir dalam sistem Debian adalah panggilan sistem yang digunakan untuk membaca kandungan direktori dan sering digunakan dalam pengaturcaraan C. Artikel ini akan menerangkan cara mengintegrasikan Readdir dengan alat lain untuk meningkatkan fungsinya. Kaedah 1: Menggabungkan Program Bahasa C dan Pipeline Pertama, tulis program C untuk memanggil fungsi Readdir dan output hasilnya:#termasuk#termasuk#includeintMain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Bagaimana Debian OpenSSL Menghalang Serangan Man-dalam-Middle Bagaimana Debian OpenSSL Menghalang Serangan Man-dalam-Middle Apr 13, 2025 am 10:30 AM

Dalam sistem Debian, OpenSSL adalah perpustakaan penting untuk pengurusan penyulitan, penyahsulitan dan sijil. Untuk mengelakkan serangan lelaki-dalam-pertengahan (MITM), langkah-langkah berikut boleh diambil: Gunakan HTTPS: Pastikan semua permintaan rangkaian menggunakan protokol HTTPS dan bukannya HTTP. HTTPS menggunakan TLS (Protokol Keselamatan Lapisan Pengangkutan) untuk menyulitkan data komunikasi untuk memastikan data tidak dicuri atau diganggu semasa penghantaran. Sahkan Sijil Pelayan: Sahkan secara manual Sijil Pelayan pada klien untuk memastikan ia boleh dipercayai. Pelayan boleh disahkan secara manual melalui kaedah perwakilan urlSession

Petua Konfigurasi Firewall Pelayan Mel Debian Petua Konfigurasi Firewall Pelayan Mel Debian Apr 13, 2025 am 11:42 AM

Mengkonfigurasi firewall pelayan Mail Debian adalah langkah penting dalam memastikan keselamatan pelayan. Berikut adalah beberapa kaedah konfigurasi firewall yang biasa digunakan, termasuk penggunaan iptables dan firewalld. Gunakan iptables untuk mengkonfigurasi firewall untuk memasang iptables (jika belum dipasang): sudoapt-getupdateudoapt-getinstalliplesview peraturan iptables semasa: konfigurasi sudoiptable-l

Cara Belajar Debian Syslog Cara Belajar Debian Syslog Apr 13, 2025 am 11:51 AM

Panduan ini akan membimbing anda untuk belajar cara menggunakan syslog dalam sistem Debian. SYSLOG adalah perkhidmatan utama dalam sistem Linux untuk sistem pembalakan dan mesej log aplikasi. Ia membantu pentadbir memantau dan menganalisis aktiviti sistem untuk mengenal pasti dan menyelesaikan masalah dengan cepat. 1. Pengetahuan asas syslog Fungsi teras syslog termasuk: mengumpul dan menguruskan mesej log secara terpusat; menyokong pelbagai format output log dan lokasi sasaran (seperti fail atau rangkaian); Menyediakan fungsi tontonan log dan penapisan masa nyata. 2. Pasang dan konfigurasikan syslog (menggunakan rsyslog) Sistem Debian menggunakan rsyslog secara lalai. Anda boleh memasangnya dengan arahan berikut: sudoaptupdatesud

Kaedah pemasangan sijil SSL Server Server Debian Kaedah pemasangan sijil SSL Server Server Debian Apr 13, 2025 am 11:39 AM

Langkah -langkah untuk memasang sijil SSL pada pelayan mel Debian adalah seperti berikut: 1. Pasang OpenSSL Toolkit terlebih dahulu, pastikan bahawa OpenSSL Toolkit telah dipasang pada sistem anda. Jika tidak dipasang, anda boleh menggunakan arahan berikut untuk memasang: sudoapt-getupdateudoapt-getinstallopenssl2. Menjana permintaan kunci dan sijil peribadi seterusnya, gunakan OpenSSL untuk menjana kunci peribadi RSA 2048-bit dan permintaan sijil (CSR): Membuka

See all articles