Hanya dengan latihan menggunakan 7500 data trajektori, robot ini boleh menunjukkan 12 kemahiran operasi yang berbeza dalam 38 tugasan, bukan sahaja terhad kepada memilih dan menolak, tetapi juga termasuk manipulasi objek bersama dan kedudukan semula objek. Tambahan pula, kemahiran ini boleh digunakan pada beratus-ratus situasi yang tidak diketahui yang berbeza, termasuk objek yang tidak diketahui, tugas yang tidak diketahui, dan juga persekitaran dapur yang tidak diketahui sepenuhnya. Robot jenis ini sangat keren!
Mencipta robot yang mampu memanipulasi objek sewenang-wenang dalam persekitaran yang pelbagai telah menjadi matlamat yang sukar difahami selama beberapa dekad. Salah satu sebabnya ialah kekurangan set data robotik yang pelbagai untuk melatih ejen tersebut, serta kekurangan ejen tujuan am yang mampu menghasilkan set data sedemikian
Untuk mengatasi masalah ini, penyelidik dari Carnegie Mellon University dan Meta The author of AI menghabiskan dua tahun membangunkan RoboAgent universal. Matlamat utama mereka adalah untuk membangunkan paradigma yang cekap yang boleh melatih ejen am yang berkeupayaan berbilang kemahiran dengan data terhad, dan menyamaratakan kemahiran ini kepada pelbagai situasi yang tidak diketahui
RoboAgent Terdiri secara modular daripada:
Dataset yang digunakan untuk melatih RoboAgent, RoboSet (MT-ACT), hanya merangkumi 7,500 trajektori (18 kali kurang daripada data RT-1). Set data ini dikumpul terlebih dahulu dan kekal beku. Set data terdiri daripada trajektori berkualiti tinggi yang dikumpul semasa teleoperasi manusia menggunakan perkakasan robotik komoditi (robot Franka-Emika dilengkapi dengan penggenggam Robotiq) merentasi pelbagai tugas dan senario. RoboSet (MT-ACT) jarang merangkumi 12 kemahiran unik dalam beberapa konteks yang berbeza. Data dikumpul dengan membahagikan aktiviti dapur harian (cth. membuat teh, membakar) kepada subtugas yang berbeza, setiap satu mewakili kemahiran yang unik. Set data termasuk kemahiran memilih-dan-tempat biasa, tetapi juga kemahiran yang kaya dengan kenalan seperti mengelap, penutup dan kemahiran yang melibatkan objek yang diartikulasikan. Kandungan yang ditulis semula: Set data yang digunakan untuk melatih RoboAgent, RoboSet (MT-ACT), termasuk hanya 7,500 trajektori (18 kali kurang daripada data untuk RT-1). Set data ini dikumpul terlebih dahulu dan kekal beku. Set data terdiri daripada trajektori berkualiti tinggi yang dikumpul semasa teleoperasi manusia menggunakan perkakasan robotik komoditi (robot Franka-Emika dilengkapi dengan penggenggam Robotiq) merentasi pelbagai tugas dan senario. RoboSet (MT-ACT) jarang merangkumi 12 kemahiran unik dalam beberapa konteks yang berbeza. Data dikumpul dengan membahagikan aktiviti dapur harian (cth. membuat teh, membakar) kepada subtugas yang berbeza, setiap satu mewakili kemahiran yang unik. Set data termasuk kemahiran memilih-dan-tempat yang biasa, tetapi juga kemahiran yang kaya dengan kenalan seperti mengelap, mengehadkan dan kemahiran yang melibatkan objek yang diartikulasikan
RoboAgent mempelajari strategi umum dalam situasi data rendah berdasarkan dua pandangan utama. Ia menggunakan pengetahuan sedia ada dunia tentang model asas untuk mengelakkan keruntuhan mod, dan menggunakan perwakilan strategi yang baru dan cekap untuk dapat menyerap data berbilang modal yang tinggi
Kandungan yang perlu ditulis semula ialah: 1. Peningkatan semantik : RoboAgent Dengan mempertingkatkan RoboSet (MT-ACT) secara semantik, pengetahuan terdahulu tentang dunia daripada model asas sedia ada disuntik ke dalamnya. Dataset yang terhasil menggabungkan pengalaman robot dengan pengetahuan terdahulu tentang dunia tanpa kos manusia/robot tambahan. Gunakan SAM untuk membahagikan objek sasaran dan mempertingkatkannya secara semantik dari segi bentuk, warna dan perubahan tekstur. Kandungan yang ditulis semula: 1. Peningkatan semantik: RoboAgent menyuntik pengetahuan sedia ada dunia daripada model asas sedia ada ke dalam RoboSet (MT-ACT) dengan meningkatkannya secara semantik. Dengan cara ini, pengalaman robot dan pengetahuan terdahulu tentang dunia boleh digabungkan tanpa kos manusia/robot tambahan. Gunakan SAM untuk membahagikan objek sasaran dan melakukan peningkatan semantik dari segi bentuk, warna dan perubahan tekstur
2. Perwakilan dasar yang cekap: Set data yang terhasil adalah pelbagai mod dan mengandungi pelbagai kemahiran dan tugas serta senario . Kami menggunakan kaedah pemecahan tindakan pada tetapan berbilang tugas dan membangunkan perwakilan dasar yang baru dan cekap, MT-ACT, yang mampu memperoleh set data berbilang mod dengan jumlah data yang kecil sambil mengelakkan masalah berlebihan
Kecekapan sampel RoboAgent lebih tinggi daripada kaedah sedia ada
Rajah di bawah membandingkan perwakilan dasar MT-ACT yang dicadangkan oleh pengarang dengan beberapa seni bina pembelajaran tiruan. Pengarang hanya menggunakan perubahan persekitaran termasuk perubahan pose objek dan perubahan pencahayaan separa. Sama seperti kajian terdahulu, penulis mengaitkan ini dengan generalisasi L1. Daripada keputusan RoboAgent, dapat dilihat dengan jelas bahawa menggunakan action chunking untuk memodelkan sub-trajektori dengan ketara mengatasi semua kaedah asas, sekali gus membuktikan lagi keberkesanan perwakilan dasar yang dicadangkan oleh pengarang dalam pembelajaran cekap sampel
RoboAgent cemerlang dalam pelbagai peringkat abstraksi
Rajah berikut menunjukkan hasil kaedah ujian pengarang pada tahap generalisasi yang berbeza. Pada masa yang sama, tahap generalisasi juga ditunjukkan melalui visualisasi, di mana L1 mewakili perubahan pose objek, L2 mewakili latar belakang desktop yang pelbagai dan faktor yang mengganggu, dan L3 mewakili kombinasi objek kemahiran baru. Seterusnya, pengarang menunjukkan bagaimana setiap kaedah berprestasi pada tahap generalisasi ini. Dalam kajian penilaian yang teliti, MT-ACT menunjukkan prestasi yang lebih baik daripada kaedah lain, terutamanya pada tahap generalisasi yang lebih sukar (L3)
RoboAgent sangat berskala
prestasi RoboAgent yang semakin meningkat peningkatan semantik dalam aktiviti 5 kemahiran. Seperti yang dapat dilihat daripada rajah di bawah, apabila data meningkat (iaitu bilangan peningkatan setiap bingkai meningkat), prestasi meningkat dengan ketara pada semua peringkat generalisasi. Perlu diingat terutamanya bahawa dalam tugas yang lebih sukar (pengertian L3), peningkatan prestasi adalah lebih jelas
RoboAgent dapat menunjukkan kemahirannya dalam pelbagai aktiviti yang berbeza
Atas ialah kandungan terperinci Dilatih dengan 7,500 data trajektori, CMU dan Meta membolehkan robot mencapai tahap serba boleh di dalam dewan dan dapur. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!