Dalam beberapa tahun kebelakangan ini, populariti model dunia nampaknya memainkan beberapa peranan penting dalam operasi robot. Untuk kecerdasan yang terkandung, manipulasi adalah perkara paling penting untuk ditembusi pada peringkat ini. Terutama untuk tugas-tugas ufuk panjang berikut, bagaimana untuk membina robot "cerebellum" untuk mencapai pelbagai keperluan operasi yang kompleks adalah masalah paling mendesak yang perlu diselesaikan pada masa ini.
Apabila menggunakan LM untuk memohon pada robot, pendekatan biasa ialah menyediakan pelbagai API dalam konteks, dan kemudian biarkan LLM menulis kod perancangan secara automatik mengikut gesaan tugasan Sila rujuk artikel:
Kelebihan kaedah ini kerana ia sangat intuitif, anda boleh memahami logik pembongkaran tugas dengan lebih jelas, seperti beralih ke A, meraih B, beralih ke C dan meletakkan B. Tetapi premis operasi ini adalah untuk dapat membahagikan keseluruhan tugas ke dalam operasi atom (bergerak, merebut, meletakkan, dll.). Tetapi jika ia adalah tugas yang lebih kompleks, seperti melipat pakaian, sememangnya sukar untuk membahagikan tugas itu, jadi apa yang perlu kita lakukan pada masa ini? Malah, untuk manipulasi, kita harus menghadapi banyak tugas yang panjang dan sukar untuk dipecahkan.
tugas manipulasi ufuk panjang yang sukar dipecahkan, pendekatan yang lebih baik ialah mengkaji pembelajaran tiruan seperti, dasar seperti BERTINDAK, model dan muatkan keseluruhan trajektori operasi. Walau bagaimanapun, kaedah ini akan menghadapi masalah, iaitu, tiada cara untuk menangani ralat kumulatif dengan baik - dan intipati masalah ini adalah kekurangan mekanisme maklum balas yang berkesan.
Mari kita ambil pakaian lipat sebagai contoh Apabila orang melipat pakaian, mereka sebenarnya akan sentiasa menyesuaikan strategi operasi mereka berdasarkan perubahan visual dalam pakaian, dan akhirnya melipat pakaian ke penampilan yang diingini. Sebenarnya terdapat perkara yang agak tersirat tetapi sangat penting dalam perkara ini: orang ramai secara kasarnya mengetahui jenis operasi yang akan menyebabkan jenis perubahan pada pakaian. Kemudian melangkah lebih jauh, orang sebenarnya mempunyai modeltentang ubah bentuk pakaian, dan secara kasar boleh mengetahui jenis input yang akan membawa kepada perubahan dalam keadaan (peletakan pakaian) (tahap visual ialah tahap piksel). boleh dinyatakan sebagai:
SORA sebenarnya memberi saya pukulan di lengan, iaitu, selagi ada data yang mencukupi, saya boleh menggunakan lapisan transformer+difusi untuk melatih keras model f yang boleh memahami dan meramalkan perubahan . Dengan mengandaikan bahawa kita sudah mempunyai model yang sangat kuat f yang meramalkan perubahan dalam pakaian dengan operasi, maka apabila melipat pakaian, kita boleh membina servo visual (Visual Servo) melalui maklum balas status pakaian peringkat piksel dan ideaModel Predictive Control Strategi lipat baju ke negeri yang kita nak. Ini sebenarnya telah disahkan oleh beberapa "perbincangan ganas" LeCun baru-baru ini:
Atas ialah kandungan terperinci Beberapa pemikiran tentang model dunia untuk operasi robot. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!