


Semakan sistematik pembelajaran peneguhan mendalam pra-latihan, penyelidikan dalam talian dan luar talian sudah memadai.
Dalam beberapa tahun kebelakangan ini, pembelajaran pengukuhan (RL) telah berkembang pesat, didorong oleh pembelajaran mendalam Pelbagai kejayaan dalam bidang daripada permainan kepada robotik telah merangsang minat orang ramai dalam mereka bentuk algoritma dan sistem RL berskala besar. Walau bagaimanapun, penyelidikan RL sedia ada secara amnya membolehkan ejen belajar dari awal apabila berhadapan dengan tugasan baharu, menjadikannya sukar untuk menggunakan pengetahuan sedia ada yang telah diperoleh untuk membantu membuat keputusan, mengakibatkan overhed pengiraan yang tinggi.
Dalam bidang pembelajaran yang diselia, paradigma pra-latihan telah disahkan sebagai cara yang berkesan untuk mendapatkan pengetahuan sedia ada yang boleh dipindahkan Dengan pra-latihan pada set data berskala besar, rangkaian model boleh menyesuaikan diri dengan pantas kepada tugas hiliran yang berbeza. Idea serupa juga telah dicuba dalam RL, terutamanya penyelidikan baru-baru ini mengenai ejen "generalis" [1, 2], yang membuatkan orang tertanya-tanya sama ada sesuatu seperti GPT-3 [3] juga boleh dilahirkan dalam bidang RL Universal pra-latihan model.
Walau bagaimanapun, penerapan pra-latihan dalam bidang RL menghadapi banyak cabaran, seperti perbezaan yang ketara antara tugas huluan dan hiliran, cara mendapatkan dan menggunakan data pra-latihan dengan cekap, dan cara menggunakan pengetahuan sedia ada Isu-isu seperti pemindahan yang berkesan menghalang kejayaan penerapan paradigma pra-latihan dalam RL. Pada masa yang sama, terdapat perbezaan besar dalam tetapan eksperimen dan kaedah yang dipertimbangkan dalam kajian terdahulu, yang menyukarkan penyelidik untuk mereka bentuk model pra-latihan yang sesuai dalam senario kehidupan sebenar.
Untuk menyelesaikan pembangunan pra-latihan dalam bidang RL dan kemungkinan arah pembangunan masa depan, Penyelidik dari Universiti Shanghai Jiao Tong dan Tencent menulis semak semula untuk membincangkan kaedah subbahagian Pra-latihan RL sedia ada di bawah tetapan dan masalah yang berbeza untuk diselesaikan .
Alamat kertas: https://arxiv.org/pdf/2211.03959.pdf
Pengenalan kepada pra-latihan RL
Pembelajaran pengukuhan (RL) menyediakan bentuk matematik umum untuk membuat keputusan berurutan. Melalui algoritma RL dan rangkaian neural dalam, ejen yang dipelajari dalam cara yang dipacu data dan mengoptimumkan fungsi ganjaran tertentu telah mencapai prestasi melebihi prestasi manusia dalam pelbagai aplikasi dalam bidang yang berbeza. Walau bagaimanapun, walaupun RL telah terbukti berkesan dalam menyelesaikan tugasan tertentu, kecekapan sampel dan kebolehan generalisasi masih menjadi dua halangan utama yang menghalang penggunaan RL dalam dunia nyata. Dalam penyelidikan RL, paradigma standard adalah untuk ejen belajar daripada pengalaman yang dikumpul sendiri atau orang lain, mengoptimumkan rangkaian saraf melalui pemulaan rawak untuk satu tugas. Sebaliknya, bagi manusia, pengetahuan terdahulu tentang dunia sangat membantu proses membuat keputusan. Sekiranya tugas itu berkaitan dengan tugasan yang dilihat sebelum ini, manusia cenderung menggunakan semula pengetahuan yang telah dipelajari untuk menyesuaikan diri dengan cepat dengan tugasan baharu tanpa belajar dari awal. Oleh itu, berbanding dengan manusia, ejen RL mengalami kecekapan data yang rendah dan terdedah kepada overfitting.
Walau bagaimanapun, kemajuan terkini dalam bidang pembelajaran mesin yang lain secara aktif menyokong memanfaatkan pengetahuan sedia ada yang dibina daripada pra-latihan berskala besar. Dengan melatih secara berskala pada julat data yang luas, model asas yang besar boleh disesuaikan dengan cepat kepada pelbagai tugas hiliran. Paradigma pralatihan-penalaan ini telah terbukti berkesan dalam bidang seperti penglihatan komputer dan pemprosesan bahasa semula jadi. Walau bagaimanapun, pra-latihan tidak memberi kesan yang ketara kepada bidang RL. Walaupun pendekatan ini menjanjikan, prinsip reka bentuk untuk pralatihan RL berskala besar menghadapi banyak cabaran. 1) Kepelbagaian domain dan tugas; 2) Sumber data yang terhad 3) Penyesuaian pantas terhadap kesukaran menyelesaikan tugasan hiliran. Faktor-faktor ini timbul daripada ciri-ciri yang wujud dalam RL dan memerlukan pertimbangan khusus oleh penyelidik.
Pra-latihan mempunyai potensi besar untuk RL, dan kajian ini boleh menjadi titik permulaan bagi mereka yang berminat ke arah ini. Dalam artikel ini, penyelidik cuba menjalankan semakan sistematik terhadap kerja pra-latihan sedia ada pada pembelajaran peneguhan mendalam.
Dalam beberapa tahun kebelakangan ini, pra-latihan pembelajaran peneguhan mendalam telah mengalami beberapa kejayaan. Pertama, pra-latihan berdasarkan demonstrasi pakar, yang menggunakan pembelajaran diselia untuk meramalkan tindakan yang diambil oleh pakar, telah digunakan pada AlphaGo. Dalam mengejar pra-latihan berskala besar yang kurang diawasi, bidang RL tanpa pengawasan telah berkembang dengan pesat, yang membolehkan ejen belajar daripada interaksi dengan persekitaran tanpa isyarat ganjaran. Di samping itu, perkembangan pesat pembelajaran pengukuhan luar talian (RL luar talian) telah mendorong penyelidik untuk mempertimbangkan lagi cara menggunakan data luar talian yang tidak berlabel dan sub-optimum untuk pra-latihan. Akhir sekali, kaedah latihan luar talian berdasarkan data berbilang tugas dan berbilang modal terus membuka jalan kepada paradigma pra-latihan umum.
Pralatihan dalam talian
Kejayaan RL sebelum ini dicapai dengan fungsi ganjaran yang padat dan direka dengan baik. Paradigma RL tradisional, yang telah mencapai kemajuan besar dalam banyak bidang, menghadapi dua cabaran utama apabila berskala kepada pra-latihan berskala besar. Pertama, ejen RL mudah dipasang, dan sukar bagi ejen yang telah dilatih dengan ganjaran tugas yang kompleks untuk mencapai prestasi yang baik pada tugas yang tidak pernah mereka lihat sebelum ini. Di samping itu, mereka bentuk fungsi ganjaran biasanya sangat mahal dan memerlukan banyak pengetahuan pakar, yang tidak diragukan lagi merupakan cabaran besar dalam amalan.
Pralatihan dalam talian tanpa isyarat ganjaran boleh menjadi penyelesaian yang tersedia untuk mempelajari pengetahuan sedia ada am dan isyarat diawasi tanpa penglibatan manusia. Pra-latihan dalam talian bertujuan untuk memperoleh pengetahuan sedia ada melalui interaksi dengan alam sekitar tanpa pengawasan manusia. Dalam fasa pra-latihan, ejen dibenarkan berinteraksi dengan persekitaran untuk jangka masa yang lama tetapi tidak boleh menerima ganjaran ekstrinsik. Penyelesaian ini, juga dikenali sebagai RL tanpa pengawasan, telah dikaji secara aktif oleh penyelidik dalam beberapa tahun kebelakangan ini.
Untuk mendorong ejen memperoleh pengetahuan sedia ada daripada persekitaran tanpa sebarang isyarat penyeliaan, kaedah matang adalah untuk mereka bentuk ganjaran intrinsik untuk ejen untuk menggalakkan Ejen mereka bentuk mekanisme ganjaran sewajarnya dengan mengumpul pelbagai pengalaman atau menguasai kemahiran boleh dipindahkan. Penyelidikan terdahulu telah menunjukkan bahawa ejen boleh dengan cepat menyesuaikan diri dengan tugas hiliran melalui pralatihan dalam talian dengan ganjaran intrinsik dan algoritma RL standard.
Pra-latihan luar talian
Walaupun pra-latihan dalam talian boleh mencapai keputusan pra-latihan yang baik tanpa pengawasan manusia, Tetapi untuk besar -permohonan berskala, pra-latihan dalam talian masih terhad. Lagipun, interaksi dalam talian agak eksklusif antara satu sama lain dengan keperluan untuk melatih set data yang besar dan pelbagai. Untuk menyelesaikan masalah ini, orang ramai sering berharap untuk memisahkan pengumpulan data dan pautan pra-latihan dan terus menggunakan data sejarah yang dikumpul daripada ejen atau manusia lain untuk pra-latihan.
Penyelesaian yang mungkin adalah pembelajaran peneguhan luar talian. Tujuan pembelajaran peneguhan luar talian adalah untuk mendapatkan dasar RL memaksimumkan ganjaran daripada data luar talian. Cabaran asas ialah masalah anjakan pengedaran, iaitu perbezaan pengedaran antara data latihan dan data yang dilihat semasa ujian. Kaedah pembelajaran pengukuhan luar talian sedia ada memberi tumpuan kepada cara menyelesaikan cabaran ini apabila menggunakan anggaran fungsi. Sebagai contoh, kaedah kekangan dasar secara eksplisit memerlukan dasar yang dipelajari untuk mengelak daripada mengambil tindakan yang tidak dilihat dalam set data, dan kaedah penyelarasan nilai mengurangkan masalah anggaran berlebihan fungsi nilai dengan menyesuaikan fungsi nilai kepada beberapa bentuk sempadan bawah. Walau bagaimanapun, sama ada strategi yang dilatih di luar talian boleh digeneralisasikan kepada persekitaran baharu yang tidak dilihat dalam set data luar talian masih kurang diterokai.
Mungkin, kita boleh mengelakkan pembelajaran dasar RL dan sebaliknya menggunakan data luar talian untuk mempelajari pengetahuan sedia ada yang bermanfaat kepada kelajuan penumpuan atau prestasi akhir tugasan hiliran. Lebih menarik lagi, jika model kami boleh memanfaatkan data luar talian tanpa pengawasan manusia, model itu berpotensi mendapat manfaat daripada jumlah data yang besar. Dalam makalah ini, penyelidik merujuk tetapan ini sebagai pra-latihan luar talian, dan ejen boleh mengekstrak maklumat penting (seperti perwakilan yang baik dan keutamaan tingkah laku) daripada data luar talian.
Ke arah ejen am
Kaedah pra-latihan dalam persekitaran tunggal dan modaliti tunggal terutamanya tertumpu pada pra Online yang disebutkan di atas -latihan dan tetapan pra-latihan luar talian, dan baru-baru ini, penyelidik dalam bidang itu semakin berminat untuk membina model membuat keputusan umum tunggal (cth., Gato [1] dan Multi-game DT [2]), menjadikan model yang sama model mampu mengendalikan tugasan modaliti yang berbeza dalam persekitaran yang berbeza. Untuk membolehkan ejen belajar daripada dan menyesuaikan diri dengan pelbagai tugas terbuka, penyelidikan berharap dapat memanfaatkan sejumlah besar pengetahuan sedia ada dalam bentuk yang berbeza, seperti persepsi visual dan pemahaman bahasa. Lebih penting lagi, jika penyelidik berjaya membina jambatan antara RL dan pembelajaran mesin dalam bidang lain, dan menggabungkan pengalaman kejayaan sebelumnya, mereka mungkin boleh membina model ejen am yang boleh menyelesaikan pelbagai tugas.
Atas ialah kandungan terperinci Semakan sistematik pembelajaran peneguhan mendalam pra-latihan, penyelidikan dalam talian dan luar talian sudah memadai.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Rangkaian pengesanan tepi dalam semasa biasanya menggunakan seni bina penyahkod pengekod, yang mengandungi modul pensampelan atas dan bawah untuk mengekstrak ciri berbilang peringkat dengan lebih baik. Walau bagaimanapun, struktur ini mengehadkan rangkaian untuk mengeluarkan hasil pengesanan tepi yang tepat dan terperinci. Sebagai tindak balas kepada masalah ini, kertas kerja mengenai AAAI2024 menyediakan penyelesaian baharu. Tajuk tesis: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection Penulis: Ye Yunfan (Universiti Teknologi Pertahanan Nasional), Xu Kai (Universiti Teknologi Pertahanan Kebangsaan), Huang Yuxing (Universiti Teknologi Pertahanan Nasional), Yi Renjiao (Universiti Teknologi Pertahanan Nasional), Cai Zhiping (Universiti Teknologi Pertahanan Negara) Pautan kertas: https ://ar

Pada masanya untuk Festival Musim Bunga, versi 1.5 Model Tongyi Qianwen (Qwen) berada dalam talian. Pagi ini, berita versi baharu itu menarik perhatian komuniti AI. Versi baharu model besar termasuk enam saiz model: 0.5B, 1.8B, 4B, 7B, 14B dan 72B. Antaranya, prestasi versi terkuat mengatasi GPT3.5 dan Mistral-Medium. Versi ini termasuk model Base dan model Sembang, dan menyediakan sokongan berbilang bahasa. Pasukan Tongyi Qianwen Alibaba menyatakan bahawa teknologi yang berkaitan juga telah dilancarkan di laman web rasmi Tongyi Qianwen dan Apl Tongyi Qianwen. Selain itu, keluaran Qwen 1.5 hari ini juga mempunyai sorotan berikut: menyokong panjang konteks 32K membuka pusat pemeriksaan model Base+Chat;

Model bahasa besar (LLM) biasanya mempunyai berbilion parameter dan dilatih menggunakan trilion token. Walau bagaimanapun, model sedemikian sangat mahal untuk dilatih dan digunakan. Untuk mengurangkan keperluan pengiraan, pelbagai teknik pemampatan model sering digunakan. Teknik pemampatan model ini secara amnya boleh dibahagikan kepada empat kategori: penyulingan, penguraian tensor (termasuk pemfaktoran peringkat rendah), pemangkasan dan kuantisasi. Kaedah pemangkasan telah wujud sejak sekian lama, tetapi banyak yang memerlukan penalaan halus pemulihan (RFT) selepas pemangkasan untuk mengekalkan prestasi, menjadikan keseluruhan proses mahal dan sukar untuk skala. Penyelidik dari ETH Zurich dan Microsoft telah mencadangkan penyelesaian kepada masalah ini yang dipanggil SliceGPT. Idea teras kaedah ini adalah untuk mengurangkan pembenaman rangkaian dengan memadamkan baris dan lajur dalam matriks berat.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Pada April tahun lepas, penyelidik dari Universiti Wisconsin-Madison, Penyelidikan Microsoft dan Universiti Columbia bersama-sama mengeluarkan LLaVA (Pembantu Bahasa dan Penglihatan Besar). Walaupun LLaVA hanya dilatih dengan set data arahan berbilang modal yang kecil, ia menunjukkan keputusan inferens yang hampir sama dengan GPT-4 pada beberapa sampel. Kemudian pada bulan Oktober, mereka melancarkan LLaVA-1.5, yang menyegarkan SOTA dalam 11 penanda aras dengan pengubahsuaian mudah kepada LLaVA asal. Hasil peningkatan ini sangat mengujakan, membawa kejayaan baharu kepada bidang pembantu AI berbilang modal. Pasukan penyelidik mengumumkan pelancaran versi LLaVA-1.6, menyasarkan penaakulan, OCR dan

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.
