Pernahkah anda terfikir untuk menggunakan perkataan anda sendiri untuk memberitahu robot apa yang perlu dilakukan, sama seperti bercakap dengan manusia?
Contohnya, beritahu robot pembantu rumah anda "Tolong panaskan makan tengah hari saya" dan ia akan menemui gelombang mikro dengan sendirinya. Menakjubkan, bukan?
Walaupun bahasa adalah cara yang paling intuitif bagi manusia untuk menyatakan niat mereka, sejak sekian lama, orang ramai masih bergantung pada kod tulisan tangan untuk melaksanakan robot. kawalan. Walau bagaimanapun, apabila ChatGPT muncul, keadaan ini akan berubah.
Dalam kajian baru-baru ini, pasukan Microsoft sedang meneroka cara menggunakan model bahasa AI baharu OpenAI ChatGPT untuk membolehkan interaksi manusia-komputer semula jadi.
Pautan kertas: https://www.microsoft.com/en-us/research/uploads/prod/ 2023/02/ChatGPT___Robotics.pdf
CtGPT ialah model bahasa yang dilatih pada korpus besar teks dan interaksi manusia, jadi ia boleh menjana respons yang koheren dan tatabahasa kepada pelbagai gesaan dan soalan Respons yang betul. Matlamat penyelidikan ini adalah untuk melihat sama ada ChatGPT boleh berfikir di luar teks dan alasan tentang dunia sebenar untuk membantu robot menyelesaikan tugas. Penyelidik berharap ini akan memudahkan orang ramai berinteraksi dengan robot tanpa perlu mempelajari bahasa pengaturcaraan yang kompleks atau butiran sistem robotik.
Cabaran utama penyelidikan adalah untuk mengajar ChatGPT cara menyelesaikan masalah dengan mempertimbangkan undang-undang fizik, persekitaran operasi dan cara robot menggunakan pergerakan badan untuk mengubah persekitaran sekeliling .
Ternyata ChatGPT boleh melakukan banyak perkara sendiri, tetapi ia masih memerlukan bantuan. Dalam kertas kerja, pasukan itu menerangkan satu siri prinsip reka bentuk yang boleh digunakan untuk membimbing model bahasa dalam menyelesaikan tugas robotik, termasuk (tetapi tidak terhad kepada) struktur gesaan ad hoc, API peringkat tinggi dan maklum balas melalui teks manusia. Para penyelidik percaya kerja ini hanyalah permulaan transformasi dalam membangunkan sistem robotik dan berharap kajian ini akan memberi inspirasi kepada penyelidik lain untuk menyertai bidang penyelidikan yang menarik ini.
Proses pengendalian semasa robot ialah daripada Bermula dengan jurutera atau pengguna teknikal, mereka dikehendaki menterjemah keperluan tugasan kepada kod sistem. Jurutera akan berada dalam gelung aliran kerja, sentiasa menulis kod dan spesifikasi baharu untuk membetulkan tingkah laku robot. Secara keseluruhan, prosesnya perlahan (pengguna perlu menulis kod peringkat rendah), mahal (memerlukan pengguna berkemahiran tinggi dengan pengetahuan robotik yang mendalam), dan tidak cekap (memerlukan berbilang interaksi untuk berfungsi dengan baik).
Tetapi ChatGPT membuka paradigma bot baharu dan membenarkan Pengguna yang berpotensi bukan teknikal mengambil bahagian dalam gelung, memantau prestasi robot sambil memberikan maklum balas peringkat tinggi kepada Model Bahasa Besar (LLM). Dengan mengikuti prinsip reka bentuk yang dikaji, ChatGPT boleh menjana kod untuk senario robotik. Tanpa sebarang penalaan halus, kajian itu mengeksploitasi pengetahuan LLM untuk mengawal bentuk robot yang berbeza untuk pelbagai tugas. Dalam kerja mereka, para penyelidik menunjukkan berbilang contoh ChatGPT menyelesaikan cabaran robotik, serta penempatan robot yang kompleks dalam domain operasi, udara dan navigasi.
Mendorong LLM ialah sains yang sangat empirikal. Penyelidikan mewujudkan satu set kaedah dan prinsip reka bentuk untuk menulis gesaan untuk tugasan robot melalui percubaan dan kesilapan:
Jika pengguna berpuas hati dengan penyelesaian, kod akhirnya boleh digunakan ke robot.
Mari lihat beberapa contoh, anda boleh mendapatkan lebih banyak kajian kes dalam pangkalan kod.
Penyelidik membenarkan ChatGPT mengawal dron sebenar, dan ia terbukti terbaik untuk kedua-dua pengguna bukan teknikal dan robot Antara muka berasaskan bahasa yang sangat intuitif. Apabila arahan pengguna adalah samar-samar, ChatGPT bertanya soalan penjelasan dan menulis struktur kod kompleks untuk dron untuk memeriksa seni bina secara visual, seperti corak zigzag. Ia juga belajar untuk mengambil swafoto!
Sembang PenyelidikGPT juga digunakan dalam senario pemeriksaan industri simulasi menggunakan simulator Microsoft AirSim. Model ini mampu menghuraikan secara berkesan niat peringkat tinggi pengguna dan isyarat geometri untuk mengawal dron dengan tepat.
Seterusnya, penyelidik menggunakan ChatGPT untuk senario operasi lengan robot dan menggunakan maklum balas perbualan untuk mengajar model cara menukar komposisi API yang disediakan pada mulanya kepada lebih kompleks fungsi peringkat tinggi: Pengaturcaraan automatik ChatGPT. Model ini dapat menghubungkan kemahiran yang dipelajari secara logik bersama-sama menggunakan strategi berasaskan kurikulum untuk melakukan tindakan seperti menyusun blok.
Selain itu, mockup ini menunjukkan contoh sempurna untuk menyambungkan domain teks dan fizikal apabila membina logo Microsoft daripada blok kayu. Ia bukan sahaja dapat mengingat logo daripada pangkalan pengetahuan dalaman, ia juga mampu "melukis" logo (sebagai kod SVG) dan kemudian menggunakan kemahiran yang dipelajari di atas untuk mengetahui pergerakan robot yang sedia ada yang boleh membentuknya. penampilan.
Seterusnya, penyelidik meminta ChatGPT menulis algoritma untuk membolehkan dron mencapai Aim di udara tanpa melanggar halangan. Mereka memberitahu model bahawa dron itu mempunyai penderia jarak yang menghadap ke hadapan, dan ChatGPT segera memprogramkan kebanyakan blok binaan utama untuk algoritma. Tugas ini memerlukan beberapa perbualan dengan manusia, dan keupayaan ChatGPT untuk membuat penambahbaikan kod setempat hanya menggunakan maklum balas linguistik sangat mengagumkan.
Keupayaan untuk merasakan dunia (persepsi) sebelum melakukan sesuatu (tindakan ) Ia adalah asas kepada mana-mana sistem robotik. Oleh itu, penyelidik memutuskan untuk menguji pemahaman ChatGPT tentang konsep ini dan memintanya untuk meneroka persekitaran sehingga ia menemui objek yang ditentukan pengguna. Kajian ini menyediakan model dengan ciri seperti pengesanan objek dan API jarak objek, dan mengesahkan bahawa kod yang dijananya berjaya melaksanakan gelung deria tindakan.
Semasa fasa percubaan, penyelidik menjalankan eksperimen tambahan untuk menilai sama ada ChatGPT boleh membuat keputusan masa nyata tentang ke mana robot harus pergi berdasarkan maklum balas penderia (daripada meminta ChatGPT menjana kod gelung untuk membuat keputusan keputusan ini). Menariknya, ia berlaku untuk mengesahkan bahawa penerangan teks imej kamera boleh dimasukkan ke dalam setiap langkah perbualan, dan model itu dapat memikirkan cara mengawal robot sehingga ia mencapai objek tertentu.
Kejuruteraan Prompt yang Baik adalah penting untuk kejayaan model bahasa besar seperti ChatGPT untuk tugasan robotik. Malangnya, Prompt ialah sains empirikal, dan terdapat kekurangan sumber yang komprehensif dan boleh diakses, termasuk beg campuran contoh untuk membantu penyelidik dan peminat dalam bidang tersebut. Untuk merapatkan jurang ini, penyelidik memperkenalkan "PromptCraft", platform sumber terbuka kolaboratif di mana sesiapa sahaja boleh berkongsi contoh strategi Prompt untuk kategori robot yang berbeza, dan penyelidik menerbitkan semua alat yang digunakan dalam kajian ini.
Selain reka bentuk Prompt, penyelidikan berharap dapat menyertakan berbilang simulator bot dan antara muka yang membolehkan pengguna menguji algoritma yang dijana ChatGPT mereka. Sebagai permulaan, penyelidikan itu juga telah mengeluarkan persekitaran AirSim yang disepadukan dengan ChatGPT yang boleh digunakan oleh sesiapa sahaja untuk membangunkan idea ini.
Antara muka ChatGPT-AirSim
Pengeluaran teknologi ini adalah sesuatu yang berbaloi meraikan, Kerana ini akan memperluaskan penonton untuk robotik. Penyelidik Microsoft percaya bahawa kawalan robot berasaskan bahasa akan meletakkan asas untuk membawa robot keluar dari makmal saintifik dan ke dalam kehidupan pengguna harian.
Artikel ini ingin menekankan bahawa output ChatGPT tidak dimaksudkan untuk digunakan secara langsung pada robot tanpa analisis yang teliti. Para penyelidik menggalakkan pengguna untuk memanfaatkan kuasa simulasi untuk menilai algoritma ini sebelum penggunaan kehidupan sebenar yang berpotensi dan sentiasa mengambil langkah berjaga-jaga keselamatan yang diperlukan. Kerja yang diterangkan dalam artikel ini hanya mewakili sebahagian kecil daripada apa yang mungkin di persimpangan model bahasa berskala besar yang beroperasi dalam bidang robotik, dan diharapkan memberikan inspirasi untuk lebih banyak penyelidikan.
Pautan asal: https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/
Atas ialah kandungan terperinci Semasa saya masih berbual dengan ChatGPT, seseorang telah mula menggunakannya untuk mengawal robot untuk melakukan kerja.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!