Ramai orang tahu bahawa AlphaGo, yang mengalahkan Li Sedol, Ke Jie dan pemain catur antarabangsa terkemuka yang lain, mempunyai tiga lelaran, iaitu AlphaGo Lee generasi pertama, yang mengalahkan Li Sedol, dan AlphaGo Master generasi kedua, yang mengalahkan Ke Jie Dan AlphaGo Zero generasi ketiga, yang mengalahkan dua generasi sebelumnya.
Kemahiran catur AlphaGo boleh meningkat dari generasi ke generasi Di sebalik ini sebenarnya adalah trend yang jelas dalam teknologi AI, iaitu perkadaran pembelajaran pengukuhan yang semakin meningkat.
Dalam beberapa tahun kebelakangan ini, pembelajaran pengukuhan telah melalui satu lagi "evolusi".
Tetapi kecekapan sampel agen pembelajaran peneguhan mendalam adalah rendah, yang sangat mengehadkan penggunaannya dalam masalah praktikal.
Baru-baru ini, banyak kaedah berasaskan model telah direka untuk menyelesaikan masalah ini, dan pembelajaran dalam imaginasi model dunia adalah salah satu kaedah yang paling menonjol.
Walau bagaimanapun, walaupun interaksi hampir tanpa had dengan persekitaran simulasi kelihatan menarik, model dunia mesti kekal tepat dalam jangka masa yang panjang.
Diinspirasikan oleh kejayaan Transformer dalam tugas pemodelan jujukan, Vincent Micheli, Eloy Alonso, dan François Fleure dari Cornell University memperkenalkan IRIS, Ini adalah ejen cekap data yang belajar dalam model dunia yang terdiri daripada pengekod auto diskret dan Transformer autoregresif.
Pada penanda aras Atari 100k, IRIS mencapai purata skor normal manusia sebanyak 1.046 dan mengatasi prestasi manusia dalam 10 daripada 26 permainan sepanjang bersamaan dengan hanya dua jam permainan.
Sebelum ini, LeCun pernah berkata bahawa pembelajaran pengukuhan akan membawa kepada jalan buntu.
Kini nampaknya Vincent Micheli dari Cornell University, Eloy Alonso, Francois Fleure dan lain-lain sedang mengintegrasikan model dunia dan pembelajaran pengukuhan (lebih tepat lagi, peneguhan mendalam pembelajaran), dan jambatan yang menghubungkan keduanya ialah Transformers.
Berkenaan dengan teknologi kecerdasan buatan, perkara yang boleh difikirkan oleh ramai orang ialah pembelajaran mendalam.
Malah, walaupun pembelajaran mendalam masih aktif dalam bidang AI, ia telah mendedahkan banyak masalah.
Kaedah pembelajaran mendalam yang paling biasa digunakan sekarang ialah pembelajaran terselia. Pembelajaran terselia boleh difahami sebagai "pembelajaran dengan jawapan rujukan". Salah satu cirinya ialah data mesti dilabelkan sebelum boleh digunakan untuk latihan. Tetapi kini sejumlah besar data adalah data tidak berlabel, dan kos pelabelan adalah sangat tinggi.
Sebagai tindak balas kepada situasi ini, sesetengah orang bergurau bahawa "terdapat kecerdasan sebanyak terdapat kecerdasan buatan."
Ramai penyelidik, termasuk ramai pakar, sedang memikirkan sama ada pembelajaran mendalam adalah "salah".
Hasilnya, pembelajaran peneguhan mula meningkat.
Pembelajaran pengukuhan adalah berbeza daripada pembelajaran diselia dan pembelajaran tanpa penyeliaan Ia menggunakan ejen untuk mencuba dan melakukan kesilapan secara berterusan, dan memberi ganjaran dan menghukum AI mengikut keputusan percubaan dan kesilapan. Ini adalah kaedah DeepMind untuk membuat AI pelbagai catur dan kad dan AI permainan. Penganut jalan ini percaya bahawa selagi ganjaran dan insentif ditetapkan dengan betul, pembelajaran pengukuhan akhirnya akan mewujudkan AGI yang sebenar.
Tetapi pembelajaran pengukuhan juga mempunyai masalah Dalam kata-kata LeCun, "pembelajaran pengukuhan memerlukan sejumlah besar data untuk melatih model untuk melaksanakan tugas yang paling mudah."
Jadi pembelajaran peneguhan dan pembelajaran mendalam digabungkan untuk menjadi pembelajaran peneguhan mendalam.
Pembelajaran peneguhan mendalam, pembelajaran peneguhan ialah rangka, dan pembelajaran mendalam ialah jiwa. Mekanisme operasi utama pembelajaran tetulang dalam sebenarnya pada asasnya sama dengan pembelajaran tetulang, kecuali rangkaian saraf dalam digunakan untuk menyelesaikan proses ini.
Apatah lagi, beberapa algoritma pembelajaran tetulang mendalam hanya menambah rangkaian saraf dalam pada algoritma pembelajaran tetulang sedia ada untuk melaksanakan satu set algoritma pembelajaran tetulang mendalam yang terkenal Algoritma pembelajaran tetulang mendalam DQN ialah contoh biasa.
Transformers mula-mula muncul pada 2017 dan telah dicadangkan dalam kertas kerja Google "Perhatian Adalah Semua yang Anda Perlukan".
Sebelum kemunculan Transformer, kemajuan kecerdasan buatan dalam tugas bahasa telah ketinggalan daripada perkembangan bidang lain. "Pemprosesan bahasa semula jadi agak terlambat kepada revolusi pembelajaran mendalam ini yang berlaku sepanjang dekad yang lalu," kata Anna Rumshisky, seorang saintis komputer di Universiti Massachusetts Lowell "Dari satu segi, NLP ketinggalan di belakang penglihatan komputer, Transformer mengubahnya dalam beberapa tahun kebelakangan ini, model pembelajaran mesin Transformer telah menjadi salah satu sorotan utama kemajuan pembelajaran mendalam dan teknologi rangkaian saraf dalam. Ia digunakan terutamanya untuk aplikasi lanjutan dalam pemprosesan bahasa semula jadi. Google menggunakannya untuk meningkatkan hasil enjin cariannya.
Transformer dengan cepat menjadi peneraju dalam aplikasi seperti pengecaman perkataan yang memfokuskan pada menganalisis dan meramalkan teks. Ia mencetuskan gelombang alat seperti GPT-3 OpenAI yang boleh dilatih menggunakan ratusan bilion perkataan dan menjana teks baharu yang koheren.
Pada masa ini, seni bina Transformer terus berkembang dan berkembang menjadi pelbagai varian, menjangkau daripada tugas bahasa ke domain lain. Sebagai contoh, Transformer telah digunakan untuk ramalan siri masa dan juga merupakan inovasi utama di sebalik model ramalan struktur protein DeepMind AlphaFold.
Transformer juga baru-baru ini memasuki bidang penglihatan komputer, dan mereka perlahan-lahan menggantikan rangkaian neural convolutional (CNN) dalam banyak tugas yang rumit.
Mengenai hasil penyelidikan Universiti Cornell, beberapa netizen asing mengulas: "Sila ambil perhatian bahawa dua Jam ini ialah panjang tangkapan dari persekitaran, dan latihan pada GPU mengambil masa seminggu."
Sesetengah orang juga mempersoalkan: Jadi sistem ini mempelajari model yang sangat tepat bagi dunia asas? Adakah model itu tidak memerlukan latihan pra?
Di samping itu, sesetengah orang merasakan bahawa keputusan Vincent Micheli dan yang lain di Universiti Cornell bukanlah satu kejayaan terobosan: "Nampaknya mereka hanya melatih model dunia, vqvae dan pengkritik pelakon, yang kesemuanya adalah Main semula penimbal daripada 2 jam pengalaman tersebut (dan kira-kira 600 zaman)".
Rujukan: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
Atas ialah kandungan terperinci Model Transformers+world, bolehkah ia menjimatkan pembelajaran pengukuhan mendalam?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!