Lihat, lelaki di hadapan anda sentiasa memberi arahan bahasa semula jadi kepada robot, seperti "Tolak bintang hijau di antara blok merah", "Alihkan blok biru ke sudut kiri bawah ", robot boleh melengkapkan setiap arahan input dalam masa nyata.
Sejak tahun 1960-an, pakar robotik telah cuba membuat robot memahami "arahan bahasa semula jadi" orang dan melakukan tindakan tertentu.
Sebaik-baiknya, robot masa hadapan akan bertindak balas dalam masa nyata terhadap sebarang tugasan berkaitan yang boleh diterangkan oleh pengguna dalam bahasa semula jadi.
Terutama dalam persekitaran manusia yang terbuka, pengguna mungkin perlu menyesuaikan gelagat robot apabila ia berlaku, memberikan pembetulan pantas, seperti "berhenti, gerakkan tangan ke atas sedikit" atau nyatakan Hadkan "Bergerak perlahan ke kanan".
Selain itu, bahasa masa nyata boleh memudahkan orang ramai dan robot bekerjasama dalam tugas jangka panjang yang kompleks, dan orang boleh membimbing robot secara berulang dan interaktif Operasi, kadangkala akan ada maklum balas lisan.
Kerja berkaitan semasa boleh dibahagikan secara kasar kepada tiga bahagian berikut:
1 ;
2 Dapat bertindak balas kepada sejumlah besar arahan bahasa semula jadi yang kaya; interaktif) arahan bahasa , iaitu robot perlu menerima arahan bahasa semula jadi baharu semasa pelaksanaan tugas.
Bagi titik ketiga, kelajuan pembangunan interaktif semasa dalam bidang robot masih sangat perlahan, yang juga menyebabkan robot tidak mempunyai "sense of life".
Baru-baru ini Google telah menerbitkan kertas kerja yang mencadangkan rangka kerja serba baharu yang boleh menghasilkan dunia sebenar, robot interaktif masa nyata yang melaksanakan arahan bahasa semula jadi, serta set data dan persekitaran yang berkaitan, penanda aras dan strategi semua ada.
Pautan kertas: https://arxiv.org/pdf/2210.06407.pdf
Laman utama projek: https://interactive-language.github.io/
Dengan menganalisis set data ratusan ribu anotasi bahasa trajektori Menjalankan latihan pengklonan tingkah laku, dasar yang terhasil dengan mahir boleh melaksanakan perintah magnitud lebih banyak daripada kerja sebelumnya yang dicapai. Di dunia nyata, para penyelidik menganggarkan bahawa kaedah itu mempunyai kadar kejayaan 93.5% pada 87,000 rentetan bahasa semula jadi yang berbeza.
Dan strategi yang sama boleh dipandu oleh manusia dalam masa nyata melalui bahasa semula jadi untuk menyelesaikan pelbagai sasaran penyusunan semula jarak jauh yang tepat, seperti sebagai "menggunakan Buat muka tersenyum dengan blok bangunan" dsb.
Set data yang dikeluarkan bersama kertas termasuk hampir 600,000 trajektori berteg bahasa, yang merupakan susunan magnitud yang lebih besar daripada set data yang tersedia sebelum ini.
Bahasa interaktif: perbualan masa nyata dengan robotUntuk menyepadukan robot ke dalam dunia nyata, perkara yang paling penting ialah dapat memproses bahasa semula jadi yang terbuka arahan, tetapi dari mesin Dari perspektif pembelajaran, mendapatkan robot untuk mempelajari bahasa perbendaharaan kata terbuka adalah satu cabaran yang besar.
Model perwakilan terbuka perlu melaksanakan sejumlah besar tugas, termasuk arahan pembetulan kecil, dsb. Persediaan pembelajaran berbilang tugas sedia ada menggunakan set data pembelajaran tiruan yang direka dengan teliti atau fungsi ganjaran pembelajaran pengukuhan yang kompleks untuk memacu pembelajaran bagi setiap tugasan, dan set pratakrif yang direka bentuk dengan cara ini ditakdirkan untuk tidak terlalu besar.
Oleh itu, persoalan utama dalam tugas perbendaharaan kata terbuka ialah: bagaimana untuk melanjutkan proses pengumpulan data robot untuk meliputi beribu-ribu tindakan dalam persekitaran sebenar, dan Bagaimana anda menyambungkan semua tingkah laku ini kepada arahan bahasa semula jadi yang mungkin diberikan oleh pengguna akhir?
Dalam bahasa interaktif, kunci kepada rangka kerja pembelajaran simulasi berskala besar yang dicadangkan oleh Google ialah skalabiliti mencipta set data demonstrasi robot berbilang bahasa yang besar dan berhawa dingin.
Tidak seperti persediaan sebelumnya di mana semua kemahiran ditakrifkan dan kemudian demonstrasi susun atur bagi setiap kemahiran dikumpulkan, penyelidik terus bekerja merentasi berbilang robot tanpa tetapan semula adegan ) atau pembahagian kemahiran tahap rendah .
Semua data, termasuk data yang gagal (seperti mengetuk blok dari jadual), mesti melalui proses pelabelan semula bahasa HindSight sebelum dipasangkan dengan teks.
Dalam proses ini, annotator perlu menonton video robot yang panjang untuk mengenal pasti sebanyak mungkin gelagat, menandakan masa mula dan tamat setiap tingkah laku dan menggunakan bentuk bahasa Semula jadi tanpa had untuk menerangkan setiap serpihan.
Perkara yang paling penting ialah berbanding dengan bootstrapping yang ditetapkan sebelum ini, semua kemahiran yang digunakan untuk latihan didedahkan dari bawah ke atas daripada data itu sendiri, bukannya pra-ditetapkan oleh penyelidik Sudah pasti.
Penyelidik sengaja memudahkan kaedah pembelajaran dan seni bina sebaik mungkin. Rangkaian Dasar Robot ialah Transformer perhatian silang yang menggabungkan video 5 Hz dan teks. Pemetaan kepada gerakan robot 5 Hz, sasaran diklon menggunakan tingkah laku pembelajaran diselia standard tanpa kehilangan tambahan.
Semasa menguji, arahan bahasa semula jadi baharu boleh dihantar ke rangkaian dasar melalui pertuturan ke teks pada kadar sehingga 5 Hz.
Semasa proses anotasi, penyelidik mengumpul set data Jadual Bahasa yang mengandungi lebih daripada 440,000 sebenar dan 180,000 perlaksanaan robot simulasi Demonstrasi arahan semula jadi secara lisan , dan urutan tindakan yang diambil oleh robot semasa demonstrasi.
Ini juga merupakan set data demonstrasi robot berhawa dingin terbesar pada masa ini, ditambah baik secara langsung mengikut susunan magnitud.
Language-Table telah melancarkan penanda aras pembelajaran simulasi, yang boleh digunakan untuk pemilihan model atau untuk menilai keupayaan robot yang dilatih dengan kaedah berbeza untuk melaksanakan arahan.
Dalam eksperimen, para penyelidik mendapati bahawa keupayaan robot akan menjadi sangat berkuasa apabila ia boleh mengikut input arahan bahasa semula jadi dalam masa nyata .
Di tapak web projek, penyelidik menunjukkan bahawa pengguna boleh membimbing robot melalui jujukan ufuk panjang yang kompleks untuk menyelesaikan masalah jangka panjang hanya menggunakan bahasa semula jadi Matlamat kawalan terkoordinasi yang tepat.
Sebagai contoh, jika terdapat banyak blcok di atas meja, arahannya boleh menjadi "Buat wajah tersenyum dengan mata hijau" atau "Letakkannya semuanya dalam garis menegak "Naik" dan seterusnya.
Oleh kerana robot telah dilatih untuk mengikuti bahasa leksikon terbuka, eksperimen melihat robot bertindak balas terhadap pelbagai pembetulan lisan yang berbeza, seperti "Gerak bintang merah secara perlahan-lahan." ".
Akhir sekali, penyelidik meneroka kelebihan bahasa masa nyata, seperti menjadikan pengumpulan data robot lebih cekap Seorang pengendali manusia boleh mengawal empat robot pada masa yang sama menggunakan bahasa pertuturan adalah mungkin Meningkatkan pengumpulan data robot pada masa hadapan tanpa perlu melengkapkan setiap robot dengan annotator.
Walaupun projek pada masa ini terhad kepada set tetap objek pada desktop, hasil percubaan pada bahasa interaktif boleh memberikan petunjuk awal bahawa pembelajaran tiruan berskala besar sememangnya boleh menghasilkan sebenar -time interactive Bot yang mampu mengikuti arahan pengguna akhir bentuk bebas.
Untuk menggalakkan kemajuan teknologi kawalan bahasa masa nyata untuk robot fizikal, penyelidik telah menggunakan Jadual Bahasa sumber terbuka, yang kini merupakan set data demonstrasi robot dunia sebenar terbesar berdasarkan pada keadaan bahasa Ia juga boleh digunakan sebagai tanda aras simulasi Berkaitan.
Para penyelidik percaya bahawa peranan set data ini mungkin bukan sahaja terhad kepada bidang kawalan robot, tetapi juga boleh digunakan untuk mengkaji bahasa dan ramalan video bersyarat tindakan, video robot pemodelan bahasa bersyarat, atau dalam Ia menyediakan titik permulaan baharu untuk mengkaji banyak lagi masalah menarik dan aktif dalam konteks pembelajaran mesin yang lebih luas.
Atas ialah kandungan terperinci Robot Google mencapai bahasa interaktif dengan ketepatan sehingga 93.5%, dan jumlah data sumber terbuka meningkat sepuluh kali ganda.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!