Jadual Kandungan
Kaedah
Rumah Peranti teknologi AI Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Apr 20, 2023 pm 07:07 PM
data deepmind

Pada masa ini, Transformers telah menjadi seni bina rangkaian saraf yang berkuasa untuk pemodelan jujukan. Sifat ketara transformer terlatih ialah keupayaan mereka untuk menyesuaikan diri dengan tugas hiliran melalui pelaziman isyarat atau pembelajaran kontekstual. Selepas pra-latihan pada set data luar talian yang besar, transformer berskala besar telah ditunjukkan dengan cekap menyamaratakan tugasan hiliran dalam pelengkapan teks, pemahaman bahasa dan penjanaan imej.

Kerja terkini telah menunjukkan bahawa transformer juga boleh mempelajari dasar daripada data luar talian dengan menganggap pembelajaran tetulang luar talian (RL) sebagai masalah ramalan berjujukan. Kerja oleh Chen et al. (2021) menunjukkan bahawa transformer boleh mempelajari dasar tugas tunggal daripada data RL luar talian melalui pembelajaran tiruan, dan kerja seterusnya menunjukkan bahawa transformer boleh mengekstrak dasar berbilang tugas dalam tetapan domain yang sama dan merentas domain. Kerja-kerja ini semuanya menunjukkan paradigma untuk mengekstrak dasar berbilang tugas umum, iaitu pertama mengumpul set data interaksi persekitaran berskala besar dan pelbagai, dan kemudian mengekstrak dasar daripada data melalui pemodelan berjujukan. Kaedah pembelajaran dasar daripada data RL luar talian melalui pembelajaran tiruan ini dipanggil penyulingan dasar luar talian (Offline Policy Distillation) atau penyulingan dasar (Policy Distillation, PD).

PD menawarkan kesederhanaan dan kebolehskalaan, tetapi salah satu kelemahan utamanya ialah dasar yang dijana tidak bertambah baik secara progresif dengan interaksi tambahan dengan alam sekitar. Contohnya, ejen generalis Google Multi-Game Decision Transformers mempelajari dasar bersyarat pulangan yang boleh memainkan banyak permainan Atari, manakala ejen generalis DeepMind, Gato mempelajari penyelesaian kepada pelbagai masalah melalui strategi penaakulan tugasan kontekstual. Malangnya, kedua-dua ejen tidak boleh menambah baik dasar dalam konteks melalui percubaan dan kesilapan. Oleh itu, kaedah PD mempelajari dasar dan bukannya algoritma pembelajaran pengukuhan.

Dalam kertas DeepMind baru-baru ini, penyelidik membuat hipotesis bahawa sebab PD gagal bertambah baik melalui percubaan dan kesilapan ialah data yang digunakan untuk latihan tidak dapat menunjukkan kemajuan pembelajaran. Kaedah semasa sama ada mempelajari dasar daripada data yang tidak mengandungi pembelajaran (cth. dasar pakar tetap melalui penyulingan) atau mempelajari dasar daripada data yang mengandungi pembelajaran (cth. penimbal ulang tayang ejen RL), tetapi saiz konteks yang terakhir ( terlalu Kecil) Kegagalan untuk menangkap penambahbaikan dasar.

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Alamat kertas: https://arxiv.org/pdf/2210.14215.pdf

Pemerhatian utama penyelidik ialah sifat pembelajaran berurutan dalam latihan algoritma RL membolehkan, pada dasarnya, memodelkan pembelajaran pengukuhan itu sendiri sebagai masalah ramalan jujukan sebab. Khususnya, jika konteks pengubah cukup panjang untuk memasukkan penambahbaikan dasar yang dibawa oleh kemas kini pembelajaran, maka ia bukan sahaja boleh mewakili dasar tetap, tetapi juga boleh mewakili algoritma penambahbaikan dasar dengan memfokuskan pada keadaan. , tindakan dan ganjaran episod sebelumnya. Ini membuka kemungkinan bahawa mana-mana algoritma RL boleh disuling menjadi model jujukan yang cukup berkuasa seperti transformer melalui pembelajaran tiruan, dan model ini boleh ditukar kepada algoritma RL kontekstual.

Penyelidik mencadangkan Penyulingan Algoritma (AD), yang merupakan pengendali yang dipertingkatkan untuk mempelajari strategi kontekstual dengan mengoptimumkan kehilangan ramalan jujukan sebab dalam sejarah kaedah pembelajaran algoritma RL. Seperti yang ditunjukkan dalam Rajah 1 di bawah, AD terdiri daripada dua bahagian. Set data berbilang tugas yang besar mula-mula dijana dengan menyimpan sejarah latihan algoritma RL pada sejumlah besar tugas individu, dan kemudian model pengubah memodelkan tindakan dengan menggunakan sejarah pembelajaran sebelumnya sebagai konteksnya. Oleh kerana dasar itu terus bertambah baik semasa latihan algoritma RL sumber, AD perlu mempelajari operator yang dipertingkatkan untuk memodelkan tindakan dengan tepat pada mana-mana titik tertentu dalam sejarah latihan. Yang penting, konteks pengubah mestilah cukup besar (iaitu, merentas episod) untuk menangkap peningkatan dalam data latihan.

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Para penyelidik menyatakan bahawa dengan menggunakan pengubah penyebab dengan konteks yang cukup besar untuk meniru algoritma RL berasaskan kecerunan, AD boleh mengukuhkan sepenuhnya tugas baharu dalam konteks kajian. Kami menilai AD dalam beberapa persekitaran yang boleh diperhatikan separa yang memerlukan penerokaan, termasuk Watermaze berasaskan piksel daripada DMLab, dan menunjukkan bahawa AD mampu penerokaan konteks, penetapan keyakinan temporal dan generalisasi. Selain itu, algoritma yang dipelajari oleh AD adalah lebih cekap daripada algoritma yang menjana data sumber latihan pengubah.

Akhir sekali, perlu diingat bahawa AD ialah kaedah pertama untuk menunjukkan pembelajaran peneguhan kontekstual dengan memodelkan data luar talian secara berurutan dengan kehilangan tiruan.

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Kaedah

Semasa kitaran hayatnya, agen pembelajaran pengukuhan perlu menunjukkan prestasi yang baik dalam melakukan tindakan yang kompleks. Bagi ejen pintar, tanpa mengira persekitaran, struktur dalaman dan pelaksanaannya, ia boleh dianggap sebagai selesai berdasarkan pengalaman lalu. Ia boleh dinyatakan dalam bentuk berikut:

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Penyelidik juga menganggap strategi "long history-conditioned" sebagai algoritma dan membuat kesimpulan:

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

di mana Δ(A) mewakili ruang pengagihan kebarangkalian pada ruang tindakan A. Persamaan (3) menunjukkan bahawa algoritma boleh dibentangkan dalam persekitaran untuk menjana urutan pemerhatian, ganjaran dan tindakan. Demi kesederhanaan, kajian ini mewakili algoritma sebagai P dan persekitaran (iaitu tugas) sebagai Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia Sejarah pembelajaran Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia diwakili oleh algoritma , supaya untuk sebarang tugasan yang diberikan Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusiaDihasilkan. Anda boleh mendapatkan

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Penyelidik menggunakan huruf Latin besar untuk mewakili pembolehubah rawak, seperti O, A, R dan bentuk huruf kecil yang sepadan o, α, r . Dengan melihat algoritma sebagai dasar bersyarat sejarah jangka panjang, mereka membuat hipotesis bahawa mana-mana algoritma yang menjana sejarah pembelajaran boleh ditukar kepada rangkaian saraf dengan melakukan pengklonan tingkah laku tindakan. Seterusnya, kajian mencadangkan pendekatan yang menyediakan ejen pembelajaran sepanjang hayat model jujukan dengan klon tingkah laku untuk memetakan sejarah jangka panjang kepada pengagihan tindakan.

Pelaksanaan praktikal

Secara praktikal, penyelidikan ini melaksanakan penyulingan algoritma (AD) sebagai proses dua langkah. Pertama, set data sejarah pembelajaran dikumpul dengan menjalankan algoritma RL berasaskan kecerunan individu pada banyak tugas yang berbeza. Seterusnya, model jujukan dengan konteks berbilang episod dilatih untuk meramalkan tindakan dalam sejarah. Algoritma khusus adalah seperti berikut:

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Eksperimen

Eksperimen memerlukan persekitaran yang digunakan menyokong banyak tugas yang tidak boleh diperolehi daripada Inferens mudah dibuat daripada pemerhatian, dan episod cukup pendek untuk melatih transformer sebab-sebab episod silang dengan cekap. Matlamat utama kerja ini adalah untuk menyiasat sejauh mana peneguhan AD dipelajari dalam konteks berbanding dengan kerja sebelumnya. Percubaan membandingkan AD, ED (Penyulingan Pakar), RL^2, dsb.

Hasil penilaian AD, ED, RL^2 ditunjukkan dalam Rajah 3. Kajian mendapati bahawa kedua-dua AD dan RL^2 boleh belajar secara kontekstual mengenai tugas yang disampel daripada pengedaran latihan, manakala ED tidak boleh, walaupun ED melakukan lebih baik daripada meneka rawak apabila dinilai dalam pengedaran.

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Mengenai Rajah 4 di bawah, pengkaji telah menjawab beberapa siri soalan. Adakah AD mempamerkan pembelajaran peneguhan kontekstual? Keputusan menunjukkan bahawa pembelajaran peneguhan kontekstual AD boleh belajar dalam semua persekitaran, sebaliknya, ED tidak boleh meneroka dan belajar dalam konteks dalam kebanyakan situasi.

Bolehkah AD belajar daripada pemerhatian berasaskan piksel? Keputusan menunjukkan bahawa AD memaksimumkan regresi episod melalui RL kontekstual, manakala ED gagal untuk belajar.

AD Adakah mungkin untuk mempelajari algoritma RL yang lebih cekap daripada algoritma yang menjana data sumber? Keputusan menunjukkan bahawa kecekapan data AD adalah jauh lebih tinggi daripada algoritma sumber (A3C dan DQN).

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Adakah mungkin untuk mempercepatkan AD melalui tunjuk cara? Untuk menjawab soalan ini, kajian ini mengekalkan strategi pensampelan pada titik yang berbeza sepanjang sejarah algoritma sumber dalam data set ujian, kemudian, menggunakan data strategi ini untuk pra-populasi konteks AD dan ED, dan menjalankan kedua-dua kaedah dalam konteks Bilik Gelap, Hasilnya diplot dalam Rajah 5. Walaupun ED mengekalkan prestasi dasar input, AD menambah baik setiap dasar dalam konteks sehingga ia hampir optimum. Yang penting, lebih dioptimumkan strategi input, lebih cepat AD memperbaikinya sehingga mencapai optimum.

Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia

Untuk butiran lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Penyelidikan DeepMind baharu: pengubah boleh memperbaiki dirinya sendiri tanpa campur tangan manusia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Gunakan ddrescue untuk memulihkan data pada Linux Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Cara menggunakan fungsi penapis Excel dengan berbilang syarat Cara menggunakan fungsi penapis Excel dengan berbilang syarat Feb 26, 2024 am 10:19 AM

Jika anda perlu tahu cara menggunakan penapisan dengan berbilang kriteria dalam Excel, tutorial berikut akan membimbing anda melalui langkah-langkah untuk memastikan anda boleh menapis dan mengisih data anda dengan berkesan. Fungsi penapisan Excel sangat berkuasa dan boleh membantu anda mengekstrak maklumat yang anda perlukan daripada sejumlah besar data. Fungsi ini boleh menapis data mengikut syarat yang anda tetapkan dan memaparkan hanya bahagian yang memenuhi syarat, menjadikan pengurusan data lebih cekap. Dengan menggunakan fungsi penapis, anda boleh mencari data sasaran dengan cepat, menjimatkan masa dalam mencari dan menyusun data. Fungsi ini bukan sahaja boleh digunakan pada senarai data ringkas, tetapi juga boleh ditapis berdasarkan berbilang syarat untuk membantu anda mencari maklumat yang anda perlukan dengan lebih tepat. Secara keseluruhan, fungsi penapisan Excel adalah sangat berguna

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

See all articles