


Model Transformers+world, bolehkah ia menjimatkan pembelajaran pengukuhan mendalam?
Ramai orang tahu bahawa AlphaGo, yang mengalahkan Li Sedol, Ke Jie dan pemain catur antarabangsa terkemuka yang lain, mempunyai tiga lelaran, iaitu AlphaGo Lee generasi pertama, yang mengalahkan Li Sedol, dan AlphaGo Master generasi kedua, yang mengalahkan Ke Jie Dan AlphaGo Zero generasi ketiga, yang mengalahkan dua generasi sebelumnya.
Kemahiran catur AlphaGo boleh meningkat dari generasi ke generasi Di sebalik ini sebenarnya adalah trend yang jelas dalam teknologi AI, iaitu perkadaran pembelajaran pengukuhan yang semakin meningkat.
Dalam beberapa tahun kebelakangan ini, pembelajaran pengukuhan telah melalui satu lagi "evolusi".
Tetapi kecekapan sampel agen pembelajaran peneguhan mendalam adalah rendah, yang sangat mengehadkan penggunaannya dalam masalah praktikal.
Baru-baru ini, banyak kaedah berasaskan model telah direka untuk menyelesaikan masalah ini, dan pembelajaran dalam imaginasi model dunia adalah salah satu kaedah yang paling menonjol.
Walau bagaimanapun, walaupun interaksi hampir tanpa had dengan persekitaran simulasi kelihatan menarik, model dunia mesti kekal tepat dalam jangka masa yang panjang.
Diinspirasikan oleh kejayaan Transformer dalam tugas pemodelan jujukan, Vincent Micheli, Eloy Alonso, dan François Fleure dari Cornell University memperkenalkan IRIS, Ini adalah ejen cekap data yang belajar dalam model dunia yang terdiri daripada pengekod auto diskret dan Transformer autoregresif.
Pada penanda aras Atari 100k, IRIS mencapai purata skor normal manusia sebanyak 1.046 dan mengatasi prestasi manusia dalam 10 daripada 26 permainan sepanjang bersamaan dengan hanya dua jam permainan.
Sebelum ini, LeCun pernah berkata bahawa pembelajaran pengukuhan akan membawa kepada jalan buntu.
Kini nampaknya Vincent Micheli dari Cornell University, Eloy Alonso, Francois Fleure dan lain-lain sedang mengintegrasikan model dunia dan pembelajaran pengukuhan (lebih tepat lagi, peneguhan mendalam pembelajaran), dan jambatan yang menghubungkan keduanya ialah Transformers.
Apakah perbezaan antara pembelajaran peneguhan mendalam
Berkenaan dengan teknologi kecerdasan buatan, perkara yang boleh difikirkan oleh ramai orang ialah pembelajaran mendalam.
Malah, walaupun pembelajaran mendalam masih aktif dalam bidang AI, ia telah mendedahkan banyak masalah.
Kaedah pembelajaran mendalam yang paling biasa digunakan sekarang ialah pembelajaran terselia. Pembelajaran terselia boleh difahami sebagai "pembelajaran dengan jawapan rujukan". Salah satu cirinya ialah data mesti dilabelkan sebelum boleh digunakan untuk latihan. Tetapi kini sejumlah besar data adalah data tidak berlabel, dan kos pelabelan adalah sangat tinggi.
Sebagai tindak balas kepada situasi ini, sesetengah orang bergurau bahawa "terdapat kecerdasan sebanyak terdapat kecerdasan buatan."
Ramai penyelidik, termasuk ramai pakar, sedang memikirkan sama ada pembelajaran mendalam adalah "salah".
Hasilnya, pembelajaran peneguhan mula meningkat.
Pembelajaran pengukuhan adalah berbeza daripada pembelajaran diselia dan pembelajaran tanpa penyeliaan Ia menggunakan ejen untuk mencuba dan melakukan kesilapan secara berterusan, dan memberi ganjaran dan menghukum AI mengikut keputusan percubaan dan kesilapan. Ini adalah kaedah DeepMind untuk membuat AI pelbagai catur dan kad dan AI permainan. Penganut jalan ini percaya bahawa selagi ganjaran dan insentif ditetapkan dengan betul, pembelajaran pengukuhan akhirnya akan mewujudkan AGI yang sebenar.
Tetapi pembelajaran pengukuhan juga mempunyai masalah Dalam kata-kata LeCun, "pembelajaran pengukuhan memerlukan sejumlah besar data untuk melatih model untuk melaksanakan tugas yang paling mudah."
Jadi pembelajaran peneguhan dan pembelajaran mendalam digabungkan untuk menjadi pembelajaran peneguhan mendalam.
Pembelajaran peneguhan mendalam, pembelajaran peneguhan ialah rangka, dan pembelajaran mendalam ialah jiwa. Mekanisme operasi utama pembelajaran tetulang dalam sebenarnya pada asasnya sama dengan pembelajaran tetulang, kecuali rangkaian saraf dalam digunakan untuk menyelesaikan proses ini.
Apatah lagi, beberapa algoritma pembelajaran tetulang mendalam hanya menambah rangkaian saraf dalam pada algoritma pembelajaran tetulang sedia ada untuk melaksanakan satu set algoritma pembelajaran tetulang mendalam yang terkenal Algoritma pembelajaran tetulang mendalam DQN ialah contoh biasa.
Apa yang ajaib tentang Transformers
Transformers mula-mula muncul pada 2017 dan telah dicadangkan dalam kertas kerja Google "Perhatian Adalah Semua yang Anda Perlukan".
Sebelum kemunculan Transformer, kemajuan kecerdasan buatan dalam tugas bahasa telah ketinggalan daripada perkembangan bidang lain. "Pemprosesan bahasa semula jadi agak terlambat kepada revolusi pembelajaran mendalam ini yang berlaku sepanjang dekad yang lalu," kata Anna Rumshisky, seorang saintis komputer di Universiti Massachusetts Lowell "Dari satu segi, NLP ketinggalan di belakang penglihatan komputer, Transformer mengubahnya dalam beberapa tahun kebelakangan ini, model pembelajaran mesin Transformer telah menjadi salah satu sorotan utama kemajuan pembelajaran mendalam dan teknologi rangkaian saraf dalam. Ia digunakan terutamanya untuk aplikasi lanjutan dalam pemprosesan bahasa semula jadi. Google menggunakannya untuk meningkatkan hasil enjin cariannya.
Transformer dengan cepat menjadi peneraju dalam aplikasi seperti pengecaman perkataan yang memfokuskan pada menganalisis dan meramalkan teks. Ia mencetuskan gelombang alat seperti GPT-3 OpenAI yang boleh dilatih menggunakan ratusan bilion perkataan dan menjana teks baharu yang koheren.
Pada masa ini, seni bina Transformer terus berkembang dan berkembang menjadi pelbagai varian, menjangkau daripada tugas bahasa ke domain lain. Sebagai contoh, Transformer telah digunakan untuk ramalan siri masa dan juga merupakan inovasi utama di sebalik model ramalan struktur protein DeepMind AlphaFold.
Transformer juga baru-baru ini memasuki bidang penglihatan komputer, dan mereka perlahan-lahan menggantikan rangkaian neural convolutional (CNN) dalam banyak tugas yang rumit.
Model Dunia dan Transformers bergabung tenaga, apa pendapat orang lain
Mengenai hasil penyelidikan Universiti Cornell, beberapa netizen asing mengulas: "Sila ambil perhatian bahawa dua Jam ini ialah panjang tangkapan dari persekitaran, dan latihan pada GPU mengambil masa seminggu."
Sesetengah orang juga mempersoalkan: Jadi sistem ini mempelajari model yang sangat tepat bagi dunia asas? Adakah model itu tidak memerlukan latihan pra?
Di samping itu, sesetengah orang merasakan bahawa keputusan Vincent Micheli dan yang lain di Universiti Cornell bukanlah satu kejayaan terobosan: "Nampaknya mereka hanya melatih model dunia, vqvae dan pengkritik pelakon, yang kesemuanya adalah Main semula penimbal daripada 2 jam pengalaman tersebut (dan kira-kira 600 zaman)".
Rujukan: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
Atas ialah kandungan terperinci Model Transformers+world, bolehkah ia menjimatkan pembelajaran pengukuhan mendalam?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ramai pengguna yang baru bersentuhan dengan perisian Kujiale tidak begitu biasa dengan cara Kujiale membuat model sendiri. Masukkan platform Kujiale Dalam Kujiale, klik untuk memasuki antara muka reka bentuk dan hiasan. Dalam antara muka reka bentuk, klik pada perpustakaan industri di sebelah kiri, dan klik pada alat pemasangan perkakasan seluruh rumah dalam perpustakaan industri. Di seluruh alat hiasan keras rumah, operasi pemodelan boleh dilakukan.

Dengan populariti Internet, permintaan untuk aplikasi Web semakin tinggi dan lebih tinggi. Pada masa lalu, kami mungkin telah menggunakan bahasa seperti PHP, Java atau Python untuk membina aplikasi web, tetapi dengan kemunculan teknologi baharu yang berterusan, kami kini memilih untuk menggunakan Golang untuk membina aplikasi web. Di Golang, Iris ialah rangka kerja web yang sangat baik Ia mempunyai fungsi dan kemudahan penggunaan yang sama seperti rangka kerja web arus perdana yang lain. Dalam artikel ini, kami akan meneroka asas membina aplikasi web menggunakan rangka kerja Iris.

Ramai orang tahu bahawa AlphaGo, yang mengalahkan Li Sedol, Ke Jie dan pemain catur antarabangsa terkemuka yang lain, mempunyai sejumlah tiga lelaran. Mereka adalah AlphaGo Lee generasi pertama yang mengalahkan Li Sedol, Master AlphaGo generasi kedua yang mengalahkan Ke Jie. , dan Master AlphaGo generasi kedua yang mengalahkan dua yang pertama Generasi ketiga AlphaGo Zero. Sebab mengapa kemahiran catur AlphaGo boleh meningkat dari generasi ke generasi sebenarnya disebabkan oleh trend yang jelas dalam teknologi AI, iaitu perkadaran pembelajaran pengukuhan yang semakin meningkat. Dalam beberapa tahun kebelakangan ini, pembelajaran pengukuhan telah mengalami satu lagi "evolusi". Walau bagaimanapun, kecekapan sampel agen pembelajaran tetulang mendalam adalah rendah, yang sangat mengehadkan penggunaannya dalam masalah praktikal. baru-baru ini

Hasilkan dunia permainan yang boleh dimainkan dengan satu klik. Hanya dua minggu sejak ia dikeluarkan, dan model dunia Google juga telah tiba, dan keupayaannya kelihatan lebih berkuasa: dunia maya yang dihasilkannya adalah "berautonomi dan boleh dikawal." Sebentar tadi, Google mentakrifkan paradigma baharu AI generatif - Persekitaran Interaktif Generatif (Genie, Persekitaran Interaktif Generatif). Genie ialah model dunia asas 11 bilion parameter yang boleh menjana persekitaran interaktif yang boleh dimainkan daripada satu gesaan imej. Kita boleh menggesanya dengan imej yang tidak pernah dilihat sebelum ini, dan kemudian berinteraksi dengan dunia maya imaginasi kita sendiri. Sama ada imej komposit, foto atau pun lakaran lukisan tangan, Genie boleh menjana dunia yang boleh dimainkan tanpa henti daripadanya. Ge

Laman web rasmi perpustakaan pemodelan bahasa go termasuk: 1. GORM, perpustakaan ORM yang ringkas tetapi berkuasa 2. XORM, dengan prestasi tinggi dan kemudahan penggunaan; pemetaan; 4. sqlx, perpustakaan alat pangkalan data yang ringan;

Dengan perkembangan pesat kecerdasan buatan dan teknologi pembelajaran mesin, pembelajaran mendalam telah menjadi salah satu teknologi popular dalam bidang kecerdasan buatan. Sebagai bahasa pengaturcaraan yang mudah dipelajari dan mudah digunakan, Python telah menjadi bahasa pilihan bagi ramai pengamal pembelajaran mendalam. Artikel ini akan memperkenalkan anda kepada cara menggunakan pemodelan mendalam dalam Python. 1. Pasang dan konfigurasikan persekitaran Python Pertama, kita perlu memasang Python dan perpustakaan pembelajaran mendalam yang berkaitan. Pada masa ini, perpustakaan pembelajaran mendalam yang paling biasa digunakan dalam Python ialah TensorFlow dan PyT

Numpy ialah salah satu perpustakaan matematik yang paling biasa digunakan dalam Python, menyepadukan banyak fungsi dan operasi matematik terbaik. Numpy digunakan secara meluas, termasuk statistik, algebra linear, pemprosesan imej, pembelajaran mesin, rangkaian saraf dan bidang lain. Dari segi analisis dan pemodelan data, Numpy adalah salah satu alat yang sangat diperlukan. Artikel ini akan berkongsi fungsi matematik yang biasa digunakan dalam Numpy, serta kod sampel untuk menggunakan fungsi ini untuk melaksanakan analisis dan pemodelan data. 1. Cipta tatasusunan Gunakan fungsi tatasusunan() dalam Numpy untuk mencipta nombor.

Baru-baru ini, dengan peningkatan teknologi AI generatif, banyak kuasa pembuatan kereta baharu sedang meneroka kaedah baharu model bahasa visual dan model dunia pemacu pintar hujung-ke-hujung nampaknya telah menjadi hala tuju penyelidikan biasa. Bulan lalu, Li Auto mengeluarkan seni bina teknologi pemanduan autonomi generasi ketiga bagi model bahasa visual + VLM hujung ke hujung + model dunia. Seni bina ini telah ditolak kepada beribu-ribu orang untuk ujian dalaman. Ia menggambarkan tingkah laku pemanduan pintar, meningkatkan kecekapan pemprosesan maklumat AI, dan meningkatkan keupayaan untuk memahami dan bertindak balas terhadap keadaan jalan yang kompleks. Li Xiang pernah berkata dalam perkongsian awam bahawa dalam menghadapi persekitaran pemanduan yang jarang berlaku yang sukar untuk kebanyakan algoritma untuk mengenal pasti dan memproses, VLM (Model Bahasa Visual), model bahasa visual, secara sistematik dapat meningkatkan keupayaan pemanduan autonomi secara teori
