Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja cemerlang yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Kecerdasan yang terkandung adalah satu-satunya cara untuk mencapai kepintaran buatan umum adalah melalui interaksi ejen pintar dengan ruang digital dan dunia fizikal. Selesaikan tugas yang kompleks. Dalam beberapa tahun kebelakangan ini, model besar berbilang modal dan teknologi robotik telah mencapai kemajuan yang besar, dan kecerdasan yang terkandung telah menjadi tumpuan baharu teknologi global dan persaingan industri. Walau bagaimanapun, pada masa ini terdapat kekurangan semakan yang boleh menganalisis secara komprehensif status semasa perkembangan kecerdasan yang terkandung. Oleh itu, Institut Multi-Agent and Embodied Intelligence di Makmal Pengcheng, bersama-sama penyelidik dari Makmal HCP Universiti Sun Yat-sen, menjalankan analisis komprehensif tentang kemajuan terkini dalam kecerdasan yang terkandung, dan melancarkan era model besar berbilang modal global Kajian pertama perisikan yang terkandung. Semakan ini meninjau hampir 400 dokumen dan menjalankan analisis komprehensif penyelidikan mengenai kecerdasan yang terkandung daripada pelbagai dimensi. Ulasan ini mula-mula memperkenalkan beberapa wakil robot yang terkandung dan platform simulasi yang terkandung, dan menyediakan analisis mendalam tentang fokus dan batasan penyelidikan mereka. Kemudian, empat kandungan penyelidikan utama dianalisis secara menyeluruh: 1) Persepsi Terjelma, 2) Interaksi Terjelma, 3) Kecerdasan Terjelma dan 4) Pemindahan Maya kepada Realiti, keadaan kandungan penyelidikan ini. kaedah seni, paradigma asas, dan set data yang komprehensif. Tambahan pula, ulasan ini meneroka cabaran yang dihadapi oleh ejen yang terkandung dalam ruang digital dan dunia fizikal, menekankan kepentingan mereka untuk interaksi aktif dalam persekitaran digital dan fizikal yang dinamik. Akhir sekali, semakan meringkaskan cabaran dan batasan kecerdasan yang terkandung dan membincangkan hala tuju masa depan yang berpotensi. Kajian semula ini berharap dapat menyediakan rujukan asas untuk penyelidikan perisikan yang terkandung dan menggalakkan inovasi teknologi yang berkaitan. Di samping itu, ulasan ini juga telah mengeluarkan senarai kertas perisikan yang terkandung di Github Kertas berkaitan dan repositori kod akan dikemas kini secara berterusan, jadi sila ambil perhatian. Alamat Kertas T: https://arxiv.org/pdf/2407.06886
-
1. Kehidupan masa lalu dan masa kini kepintaran terwujud
Konsep kecerdasan terjelma pertama kali dicadangkan oleh Alan Turing Turing dalam Ujian ditubuhkan pada tahun 1950 untuk menentukan sama ada ejen pintar boleh menunjukkan lebih daripada sekadar Kepintaran yang menyelesaikan masalah abstrak dalam persekitaran maya (ruang digital) (agen pintar adalah asas kecerdasan yang terkandung, wujud dalam ruang digital dan dunia fizikal, dan dijelmakan dalam bentuk pelbagai entiti, termasuk bukan sahaja robot tetapi juga peranti lain ), juga boleh mengatasi kerumitan dan ketidakpastian dunia fizikal. Oleh itu, pembangunan kecerdasan terkandung dianggap sebagai cara asas untuk mencapai kecerdasan buatan am. Ia amat penting untuk menyelidiki kerumitan kecerdasan yang terkandung, menilai status pembangunan semasanya, dan mempertimbangkan trajektori masa depannya. Hari ini, kecerdasan yang terkandung meliputi pelbagai teknologi utama seperti penglihatan komputer, pemprosesan bahasa semula jadi dan robotik yang paling mewakili ialah
persepsi yang terkandung, interaksi yang terkandung, kecerdasan yang terkandung dan migrasi maya-ke-realiti. Dalam tugas yang diwujudkan, ejen yang terkandung mesti memahami sepenuhnya niat manusia dalam arahan bahasa, meneroka persekitaran sekeliling secara proaktif, memahami secara menyeluruh elemen pelbagai mod daripada persekitaran maya dan fizikal, dan melakukan operasi yang sesuai untuk menyelesaikan tugasan yang kompleks. Kemajuan pesat model multimodal menunjukkan kepelbagaian, fleksibiliti dan keupayaan generalisasi yang lebih besar daripada kaedah pembelajaran tetulang mendalam tradisional dalam persekitaran yang kompleks. Perwakilan visual yang dilatih oleh pengekod visual terkini memberikan anggaran tepat kategori objek, pose dan geometri, membolehkan model yang terkandung untuk melihat secara komprehensif persekitaran yang kompleks dan dinamik. Model bahasa besar yang berkuasa membolehkan robot memahami arahan bahasa manusia dengan lebih baik dan menyediakan kaedah yang boleh dilaksanakan untuk menjajarkan perwakilan visual dan bahasa untuk robot yang terkandung. Model dunia menunjukkan keupayaan simulasi yang ketara dan pemahaman yang baik tentang undang-undang fizikal, membolehkan model yang terkandung memahami sepenuhnya fizik dan persekitaran sebenar. Kemajuan ini membolehkan kecerdasan yang terkandung untuk memahami secara menyeluruh persekitaran yang kompleks, berinteraksi dengan manusia secara semula jadi, dan melaksanakan tugas dengan pasti. Rajah di bawah menunjukkan seni bina tipikal ejen yang terkandung. .
Robot Terdiri —— alat Penyelesaian perkakasan untuk terwujud kecerdasan dalam dunia fizikal; (2) Platform Simulasi Terwujud
- ruang digital untuk melatih kecerdasan yang terkandung dengan cekap dan selamat; - Berinteraksi dengan persekitaran secara berkesan dan munasabah malah menukar persekitaran untuk menyelesaikan tugasan yang ditentukan; (5) Kecerdasan yang terkandung - Gunakan model besar berbilang modal untuk memahami arahan abstraksi dan bahagikannya kepada satu siri subtugasan dan kemudian selesaikan langkah tersebut mengikut langkah; (6)
Pemindahan Maya ke Realiti
- Pindahkan dan umumkan kemahiran yang dipelajari dalam ruang digital kepada dunia fizikal. Rajah di bawah menunjukkan rangka kerja sistem kecerdasan terkandung daripada ruang digital kepada dunia fizikal. Semakan ini bertujuan untuk memberikan pengetahuan latar belakang yang komprehensif, trend penyelidikan dan pandangan teknikal tentang kecerdasan yang terkandung. bentuk fizikal, termasuk robot, peralatan rumah pintar, Cermin mata pintar dan kenderaan pandu sendiri, antara lain. Antaranya, robot, sebagai salah satu bentuk yang paling menonjol, telah menarik banyak perhatian. Mengikut senario aplikasi yang berbeza, robot direka dalam pelbagai bentuk untuk menggunakan sepenuhnya ciri perkakasan mereka untuk menyelesaikan tugas tertentu. Seperti yang ditunjukkan dalam rajah di bawah, robot yang terkandung secara amnya boleh dibahagikan kepada: (1) robot asas tetap, seperti lengan robot, yang sering digunakan dalam sintesis automasi makmal, pendidikan, industri dan bidang lain (2) robot beroda, yang sangat cekap Terkenal dengan mobilitinya, ia digunakan secara meluas dalam logistik, pergudangan dan pemeriksaan keselamatan; Berempat Robot itu, yang terkenal dengan kestabilan dan kebolehsuaiannya, sangat sesuai untuk pengesanan dalam rupa bumi yang kompleks, misi menyelamat dan aplikasi ketenteraan. (5) Robot humanoid, dengan tangan tangkas mereka sebagai kunci, digunakan secara meluas dalam industri perkhidmatan, penjagaan kesihatan dan persekitaran kolaboratif. (6) Robot bionik melaksanakan tugas dalam persekitaran yang kompleks dan dinamik dengan mensimulasikan pergerakan dan fungsi berkesan organisma semula jadi.
Bentuk yang berbeza dari robot yang terkandung 3. kaedah eksperimen, boleh memastikan keselamatan dengan mensimulasikan senario yang berpotensi berbahaya, mempunyai skalabiliti untuk menguji dalam pelbagai persekitaran, mempunyai keupayaan prototaip pantas, boleh memberikan kemudahan kepada komuniti penyelidikan yang lebih luas, dan menyediakan persekitaran terkawal untuk penyelidikan yang tepat, menjana data untuk latihan dan penilaian, dan menyediakan penanda aras piawai untuk perbandingan algoritma. Untuk membolehkan ejen berinteraksi dengan persekitaran, persekitaran simulasi yang realistik mesti dibina. Ini memerlukan mengambil kira ciri fizikal persekitaran, sifat objek, dan interaksinya. Seperti yang ditunjukkan dalam rajah di bawah, semakan ini akan menganalisis dua platform simulasi: platform umum berdasarkan simulasi asas dan platform simulasi berdasarkan senario sebenar. Platform simulasi berdasarkan adegan sebenar 4. Persepsi terjelma
"Bintang Utara" persepsi visual masa hadapan ” ialah penaakulan visual berpusatkan penjelmaan dan kecerdasan sosial. Seperti yang ditunjukkan dalam rajah di bawah, bukannya hanya mengenali objek dalam imej, ejen dengan persepsi yang terkandung mesti bergerak dalam dunia fizikal dan berinteraksi dengan persekitaran, yang memerlukan pemahaman yang lebih teliti tentang ruang tiga dimensi dan persekitaran dinamik. Persepsi yang terkandung memerlukan persepsi visual dan keupayaan penaakulan, memahami hubungan tiga dimensi dalam adegan, dan meramal dan melaksanakan tugas yang kompleks berdasarkan maklumat visual. Ulasan ini memperkenalkan persepsi visual aktif, penyetempatan visual 3D, navigasi bahasa visual, persepsi bukan visual (sensor sentuhan), dsb. . 5. Interaksi yang diwujudkan Adegan interaksi dengan manusia dan alam sekitar. Tugas interaksi terjelma biasa termasuk menjawab soalan terjelma dan menggenggam terjelma. Seperti yang ditunjukkan dalam rajah di bawah, dalam tugasan soal jawab yang terkandung, ejen perlu meneroka persekitaran dari perspektif orang pertama untuk mengumpul maklumat yang diperlukan untuk menjawab soalan. Ejen yang mempunyai penerokaan autonomi dan keupayaan membuat keputusan bukan sahaja perlu mempertimbangkan tindakan yang perlu diambil untuk meneroka alam sekitar, tetapi juga memutuskan masa untuk berhenti meneroka untuk menjawab soalan, seperti yang ditunjukkan dalam rajah di bawah.架 Sebagai tambahan kepada rangka kerja Soal Jawab 问 Selain interaksi dengan manusia, interaksi juga melibatkan pelaksanaan operasi berdasarkan arahan manusia, seperti menggenggam dan meletakkan objek, dengan itu melengkapkan badan pintar dan manusia serta interaksi antara objek. Seperti yang ditunjukkan, pemahaman yang terkandung memerlukan pemahaman semantik yang komprehensif, kesedaran adegan, membuat keputusan dan perancangan kawalan yang mantap. Kaedah genggaman yang terkandung menggabungkan genggaman kinematik robot tradisional dengan model berskala besar (seperti model bahasa besar dan model asas bahasa visual), membolehkan ejen melaksanakan tugas menggenggam di bawah persepsi pelbagai deria, termasuk persepsi aktif visual, pemahaman bahasa dan penaakulan.
aktif
Seorang ejen ditakrifkan sebagai dapat merasakan persekitaran dan mengambil tindakan untuk mencapai matlamat tertentu entiti autonomi. Kemajuan terkini dalam model besar multimodal telah mengembangkan lagi aplikasi ejen dalam senario dunia sebenar. Apabila ejen berasaskan model besar multimodal ini dijelmakan ke dalam entiti fizikal, mereka dapat memindahkan keupayaan mereka dengan berkesan dari ruang maya ke dunia fizikal, dengan itu menjadi ejen yang diwujudkan. Untuk membolehkan ejen yang terkandung beroperasi dalam dunia sebenar yang kaya dengan maklumat dan kompleks, mereka telah dibangunkan dengan persepsi pelbagai mod, interaksi dan keupayaan perancangan yang kuat. Seperti yang ditunjukkan dalam rajah di bawah, untuk menyelesaikan tugasan, ejen yang terkandung biasanya melibatkan proses berikut: (1) Mengurai tugasan abstrak dan kompleks kepada sub-tugas tertentu, iaitu, perancangan tugasan yang terkandung peringkat tinggi.
(2) Laksanakan subtugas ini secara beransur-ansur dengan menggunakan persepsi yang terkandung dan model interaksi yang terkandung secara berkesan, atau menggunakan fungsi strategi model asas, yang dipanggil perancangan tindakan terwujud tahap rendah. Perlu diingat bahawa perancangan misi melibatkan pemikiran sebelum bertindak dan oleh itu sering dipertimbangkan dalam ruang digital. Sebaliknya, perancangan tindakan mesti mengambil kira interaksi berkesan dengan persekitaran dan menyalurkan maklumat ini kembali kepada perancang misi untuk menyesuaikan perancangan misi. Oleh itu, adalah penting bagi ejen yang terkandung untuk menyelaraskan dan menyamaratakan keupayaan mereka daripada ruang digital kepada dunia fizikal.模 Berdasarkan model berbilang mod dan besar, rangka badan badan 7 (Penyesuaian Sim-to-Real) merujuk kepada proses pemindahan kebolehan atau tingkah laku yang dipelajari dalam persekitaran simulasi (. ruang digital) ke dunia nyata (dunia fizikal). Proses tersebut termasuk mengesahkan dan menambah baik keberkesanan algoritma, model dan strategi kawalan yang dibangunkan dalam simulasi untuk memastikan ia berfungsi dengan stabil dan boleh dipercayai dalam persekitaran fizikal. Untuk mencapai penyesuaian simulasi-ke-realiti, model dunia yang terkandung, kaedah pengumpulan data dan latihan, dan algoritma kawalan yang terkandung adalah tiga elemen utama Rajah di bawah menunjukkan lima paradigma Sim-to-Real yang berbeza.
Lima penyelesaian migrasi maya-ke-realiti menghadapi beberapa cabaran dan membentangkan hala tuju masa depan yang menarik: Set data robot berkualiti tinggi. Mendapatkan data robot dunia sebenar yang mencukupi kekal sebagai cabaran yang penting. Pengumpulan data ini memakan masa dan intensif sumber. Bergantung sepenuhnya pada data simulasi akan memburukkan lagi masalah jurang simulasi-ke-realiti. Mencipta set data robotik dunia sebenar yang pelbagai memerlukan kerjasama yang erat dan meluas merentas institusi. Tambahan pula, membangunkan simulator yang lebih realistik dan cekap adalah penting untuk meningkatkan kualiti data simulasi. Untuk membina model terwujud universal yang boleh mencapai senario silang dan aplikasi merentas tugas dalam bidang robotik, adalah perlu untuk membina set data berskala besar dan menggunakan data persekitaran simulasi berkualiti tinggi untuk membantu data dunia sebenar.
Penggunaan berkesan data demonstrasi manusia. Penggunaan data demonstrasi manusia dengan cekap melibatkan memanfaatkan tindakan dan tingkah laku yang ditunjukkan manusia untuk melatih dan menambah baik sistem robotik. Proses ini melibatkan pengumpulan, pemprosesan dan pembelajaran daripada set data berskala besar dan berkualiti tinggi, dengan manusia melaksanakan tugas yang perlu dipelajari oleh robot. Oleh itu, adalah penting untuk menggunakan sejumlah besar data demonstrasi manusia yang tidak berstruktur, berbilang label dan berbilang modal yang digabungkan dengan data label tindakan untuk melatih model yang terkandung yang boleh mempelajari pelbagai tugas dalam masa yang agak singkat. Dengan memanfaatkan data demonstrasi manusia dengan cekap, sistem robotik boleh mencapai tahap prestasi dan kebolehsuaian yang lebih tinggi, menjadikan mereka lebih mampu melaksanakan tugas yang kompleks dalam persekitaran yang dinamik.
Kognisi persekitaran yang kompleks. Kognisi persekitaran kompleks merujuk kepada keupayaan ejen yang terkandung untuk melihat, memahami dan mengemudi persekitaran dunia sebenar yang kompleks dalam persekitaran fizikal atau maya. Untuk persekitaran terbuka yang tidak berstruktur, kerja semasa biasanya bergantung pada mekanisme penguraian tugas LLM pra-latihan, memanfaatkan pengetahuan akal fikiran yang luas untuk perancangan tugas yang mudah, tetapi tidak mempunyai pemahaman adegan khusus. Meningkatkan pemindahan pengetahuan dan generalisasi dalam persekitaran yang kompleks adalah kritikal. Sistem robotik yang benar-benar serba boleh harus dapat memahami dan melaksanakan arahan bahasa semula jadi merentasi pelbagai senario yang berbeza dan tidak kelihatan. Ini memerlukan pembangunan seni bina ejen yang boleh disesuaikan dan berskala.
Pelaksanaan misi jarak jauh. Melaksanakan satu arahan biasanya melibatkan robot melakukan tugas jarak jauh, seperti arahan seperti "bersihkan dapur", yang melibatkan menyusun semula item, menyapu lantai, mengelap meja, dsb. Penyelesaian tugas ini dengan jayanya memerlukan robot dapat merancang dan melaksanakan satu siri tindakan peringkat rendah dalam tempoh masa yang panjang. Walaupun perancang tugas peringkat tinggi semasa telah menunjukkan kejayaan awal, mereka sering gagal dalam pelbagai senario kerana kekurangan penyesuaian kepada tugasan yang terkandung. Menangani cabaran ini memerlukan pembangunan perancang yang cekap dengan keupayaan persepsi yang kuat dan pengetahuan akal yang luas.
Penemuan hubungan sebab akibat. Ejen terkandung dipacu data sedia ada membuat keputusan berdasarkan korelasi dalam data. Walau bagaimanapun, kaedah pemodelan ini tidak dapat membolehkan model untuk benar-benar memahami hubungan sebab akibat antara pengetahuan, tingkah laku dan persekitaran, mengakibatkan strategi berat sebelah. Ini menjadikan mereka sukar untuk beroperasi dengan cara yang boleh ditafsir, teguh dan boleh dipercayai dalam persekitaran dunia sebenar. Oleh itu, kecerdasan yang terkandung perlu didorong oleh pengetahuan dunia dan mempunyai keupayaan penaakulan sebab berautonomi.
Teruskan belajar. Dalam aplikasi robotik, pembelajaran berterusan adalah penting untuk menggunakan strategi pembelajaran robot dalam pelbagai persekitaran, tetapi bidang ini masih kurang diterokai. Walaupun beberapa penyelidikan baru-baru ini telah meneroka subtopik pembelajaran berterusan, seperti pembelajaran tambahan, penyesuaian gerakan pantas dan pembelajaran interaksi manusia-komputer, penyelesaian ini biasanya direka untuk satu tugas atau platform dan belum lagi mempertimbangkan model asas. Soalan penyelidikan terbuka dan pendekatan yang mungkin termasuk: 1) menggabungkan perkadaran berbeza pengedaran data sebelumnya apabila memperhalusi data terkini untuk mengurangkan pelupaan bencana, 2) membangunkan prototaip yang cekap daripada pengedaran atau kursus terdahulu untuk pembelajaran inferens tugasan baharu, 3) menambah baik kestabilan latihan dan kecekapan sampel algoritma pembelajaran dalam talian, 4) mengenal pasti kaedah berprinsip untuk menyepadukan model berkapasiti besar dengan lancar ke dalam rangka kerja kawalan, mungkin melalui pembelajaran hierarki atau kawalan perlahan-cepat, untuk mencapai penaakulan masa nyata.
Tanda Aras Penilaian Bersatu. Walaupun terdapat banyak tanda aras untuk menilai strategi kawalan peringkat rendah, ia selalunya berbeza dengan ketara dalam kemahiran penilaian mereka. Tambahan pula, objek dan adegan yang disertakan dalam penanda aras ini selalunya terhad kepada simulator. Untuk menilai sepenuhnya model yang terkandung, penanda aras yang merangkumi pelbagai kemahiran menggunakan simulator realistik diperlukan. Dari segi perancangan tugas peringkat tinggi, banyak penanda aras menilai kebolehan perancangan melalui tugasan soal jawab.Cependant, une approche plus idéale consisterait à évaluer de manière exhaustive les capacités d’exécution des planificateurs de mission de haut niveau et des stratégies de contrôle de bas niveau, en particulier dans l’exécution de missions de longue durée, et à mesurer les taux de réussite, plutôt que de s’appuyer uniquement sur l’évaluation des planificateurs. Cette approche globale permet une évaluation plus complète des capacités des systèmes intelligents incorporés. En bref, l'intelligence incarnée permet aux agents intelligents de percevoir, de reconnaître et d'interagir avec divers objets dans l'espace numérique et dans le monde physique, démontrant ainsi son importance dans la réalisation de l'intelligence artificielle générale. Cette revue fournit un examen complet des robots incarnés, des plates-formes de simulation incarnées, de la perception incarnée, de l'interaction incarnée, des agents incarnés, du contrôle des robots du virtuel à la réalité et des orientations de recherche futures, qui ont des implications pour la promotion du développement de l'intelligence incarnée. À propos de l'Institut d'Intelligence Multi-Agents et Incarnée du Laboratoire de PengchengL'Institut d'Intelligence Multi-Agents et Incarnée affilié au Laboratoire de Pengcheng rassemble des dizaines d'experts en sciences intelligentes et en robotique Top young les scientifiques du domaine, s'appuyant sur une infrastructure d'IA contrôlable de manière indépendante telle que Pengcheng Cloud Brain et China Computing Network, se sont engagés à créer des plates-formes de collaboration multi-agents et de formation par simulation, des grands modèles multimodaux incarnés par la collaboration dans le cloud et d'autres plates-formes de base générales pour lui donner plus de pouvoir. peut répondre à des besoins applicatifs majeurs tels que l’Internet industriel, la gouvernance sociale et les services. Atas ialah kandungan terperinci Yang pertama di dunia! Meninjau hampir 400 dokumen, Makmal Pengcheng & CUHK menganalisis secara mendalam kecerdasan yang terkandung. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!