Masyarakat 3D interaktif simulasi pertama yang direka khas untuk pelbagai robot.
Ingat Bandar AI Stanford? Ini adalah persekitaran maya yang dicipta oleh penyelidik AI di Stanford. Di bandar kecil ini, 25 ejen AI tinggal, bekerja, bersosial, malah jatuh cinta seperti biasa. Setiap ejen mempunyai personaliti dan kisah latar belakangnya sendiri. Tingkah laku dan ingatan ejen didorong oleh model bahasa besar yang menyimpan dan mendapatkan semula pengalaman ejen dan merancang tindakan berdasarkan ingatan ini. (Lihat ""bandar maya" Stanford ialah sumber terbuka: 25 ejen AI menyalakan "Westworld"")
Begitu juga, baru-baru ini, sekumpulan penyelidik dari Shanghai Artificial Intelligence Laboratory OpenRobotLab dan institusi lain Sekumpulan penyelidik juga mewujudkan bandar maya. Walau bagaimanapun, hidup di antara mereka adalah robot dan NPC. Mengandungi 100,000 adegan interaktif dan 89 kategori adegan berbeza, bandar ini ialah masyarakat 3D interaktif simulasi pertama yang direka khusus untuk pelbagai robot.
Pengarang menyatakan bahawa mereka mereka bentuk persekitaran ini untuk menyelesaikan masalah kekurangan data dalam bidang kecerdasan yang terkandung. Seperti yang kita semua tahu, meneroka undang-undang penskalaan dalam bidang perisikan yang terkandung adalah sukar kerana kos yang tinggi untuk mengumpul data dunia sebenar. Oleh itu, paradigma simulasi-ke-sebenar (Sim2Real) menjadi langkah kritikal dalam memanjangkan pembelajaran model yang terkandung.
Persekitaran maya yang mereka reka untuk robot dipanggil GRUtopia terutamanya termasuk:
1 Set data adegan GRScenes. Mengandungi 100,000 adegan interaktif beranotasi halus yang boleh digabungkan secara bebas ke dalam persekitaran berskala bandar. Tidak seperti kerja sebelumnya yang tertumpu terutamanya pada rumah, GRScenes merangkumi 89 kategori pemandangan berbeza, mengisi jurang dalam persekitaran berorientasikan perkhidmatan (di mana robot biasanya digunakan pada mulanya).
2. Ini ialah sistem watak bukan pemain (NPC) dipacu model bahasa besar (LLM) yang bertanggungjawab untuk interaksi sosial, penjanaan tugas dan peruntukan tugas, dengan itu mensimulasikan senario sosial untuk aplikasi AI yang terkandung.
3. Penanda Aras GRBench. Pelbagai robot disokong, tetapi tumpuan diberikan kepada robot berkaki sebagai ejen utama, dan tugas yang agak sukar melibatkan navigasi penyetempatan objek, navigasi penyetempatan sosial dan manipulasi penyetempatan dicadangkan.
Pengarang berharap karya ini akan mengurangkan kekurangan data berkualiti tinggi di lapangan dan memberikan penilaian yang lebih komprehensif tentang penyelidikan AI yang terkandung.
Tajuk kertas: GRUtopia: Dream General Robots in a City at Scale
Alamat kertas: https://arxiv.org/pdf/2407.10943
Projekalamat .com/OpenRobotLab/GRUtopia
GRScenes: Persekitaran Interaktif Sepenuhnya pada Skala Besar
Untuk membina platform untuk melatih dan menilai ejen yang terkandung, persekitaran interaktif sepenuhnya dengan adegan dan aset objek yang berbeza adalah sangat diperlukan. Oleh itu, penulis mengumpul set data pemandangan sintetik 3D berskala besar yang mengandungi pelbagai aset objek sebagai asas platform GRUtopia.
Adegan realistik yang pelbagai
Disebabkan bilangan dan kategori data pemandangan 3D sumber terbuka yang terhad, pengarang mula-mula mengumpul kira-kira 100,000 adegan sintetik berkualiti tinggi daripada tapak web pereka untuk mendapatkan prototaip pemandangan yang pelbagai. Mereka kemudian membersihkan prototaip pemandangan ini, menganotasinya dengan semantik peringkat rantau dan objek, dan akhirnya menggabungkannya untuk membentuk bandar yang berfungsi sebagai taman permainan asas robot.
Seperti yang ditunjukkan dalam Rajah 2-(a), sebagai tambahan kepada adegan rumah biasa, set data yang dibina oleh pengarang juga mempunyai 30% daripada kategori adegan lain yang berbeza, seperti restoran, pejabat, tempat awam, hotel, hiburan, dan lain-lain. Pengarang pada mulanya menapis 100 adegan beranotasi halus daripada set data berskala besar untuk penanda aras sumber terbuka. 100 adegan ini termasuk 70 adegan rumah dan 30 adegan perniagaan, di mana adegan rumah terdiri daripada kawasan umum yang komprehensif dan kawasan lain yang berbeza, dan adegan perniagaan merangkumi jenis biasa seperti hospital, pasar raya, restoran, sekolah, perpustakaan dan pejabat.
Selain itu, penulis juga bekerjasama dengan beberapa pereka profesional untuk memperuntukkan objek mengikut tabiat hidup manusia untuk menjadikan adegan ini lebih realistik, seperti yang ditunjukkan dalam Rajah 1, yang biasanya diabaikan dalam karya terdahulu.
Objek interaktif dengan anotasi peringkat separa
Adegan ini pada asalnya mengandungi berbilang objek 3D, tetapi sesetengah daripadanya tidak dimodelkan secara dalaman, jadi robot tidak dapat dilatih untuk berinteraksi dengan objek ini. Untuk menyelesaikan masalah ini, pengarang bekerja dengan pasukan profesional untuk mengubah suai aset ini dan mencipta objek lengkap yang membolehkan mereka berinteraksi dengan cara yang boleh dipercayai secara fizikal. Selain itu, untuk menyediakan maklumat yang lebih komprehensif yang membolehkan ejen berinteraksi dengan aset ini, penulis melampirkan label bahagian berbutir halus dalam bentuk X pada bahagian interaktif semua objek dalam NVIDIA Omniverse. Akhir sekali, 100 adegan mengandungi 2956 objek interaktif dan 22001 objek bukan interaktif dalam 96 kategori, dan taburannya ditunjukkan dalam Rajah 2-(b).
Anotasi multimodal hierarki
Akhir sekali, untuk mencapai interaksi pelbagai mod ejen yang terkandung dengan persekitaran dan NPC, adegan dan objek ini juga perlu diberi anotasi linguistik. Tidak seperti set data pemandangan 3D berbilang mod sebelumnya yang hanya memfokuskan pada tahap objek atau hubungan antara objek, pengarang juga mempertimbangkan butiran yang berbeza bagi elemen pemandangan, seperti hubungan antara objek dan wilayah. Memandangkan kekurangan label rantau, pengarang mula-mula mereka bentuk antara muka pengguna untuk menganotasi kawasan dengan poligon pada pandangan mata burung tempat kejadian, yang kemudiannya boleh melibatkan hubungan objek-rantau dalam anotasi linguistik. Untuk setiap objek, mereka menggesa VLM berkuasa (seperti GPT-4v) dengan imej berbilang paparan yang diberikan untuk memulakan anotasi, yang kemudiannya diperiksa oleh manusia. Anotasi linguistik yang terhasil menyediakan asas untuk tugasan yang terkandung dalam penjanaan penanda aras berikutnya. . Sistem NPC ini dinamakan GRResidents. Salah satu cabaran utama dalam membina watak maya yang realistik dalam adegan 3D ialah menyepadukan keupayaan persepsi 3D. Walau bagaimanapun, watak maya boleh mengakses anotasi pemandangan dan keadaan dalaman dunia simulasi dengan mudah, yang membolehkan keupayaan persepsi yang berkuasa. Untuk tujuan ini, pengarang mereka bentuk Pengurus Pengetahuan Dunia (WKM) untuk mengurus pengetahuan dinamik keadaan dunia masa nyata dan menyediakan akses melalui satu siri antara muka data. Dengan WKM, NPC boleh mendapatkan semula pengetahuan yang diperlukan dan melakukan pembumian objek yang terperinci melalui panggilan fungsi berparameter, yang membentuk teras keupayaan sentimen mereka.
World Knowledge Manager (WKM)
Tanggungjawab utama WKM adalah untuk menguruskan pengetahuan persekitaran maya secara berterusan dan menyediakan pengetahuan adegan lanjutan kepada NPC. Secara khusus, WKM memperoleh anotasi hierarki dan pengetahuan pemandangan daripada set data dan bahagian belakang simulator masing-masing, dan membina graf pemandangan sebagai perwakilan pemandangan, di mana setiap nod mewakili contoh objek dan tepi mewakili hubungan ruang antara objek. Pengarang mengguna pakai hubungan spatial yang ditakrifkan dalam Sr3D sebagai ruang hubungan. WKM mengekalkan graf pemandangan ini pada setiap langkah simulasi. Selain itu, WKM juga menyediakan tiga antara muka data teras untuk mengekstrak pengetahuan daripada graf pemandangan:
1, find_diff (sasaran, objek): membandingkan perbezaan antara objek sasaran dan satu set objek lain 2, get_info (objek, jenis): Dapatkan pengetahuan objek mengikut jenis atribut yang diperlukan
3.
LLM PlannerModul membuat keputusan NPC ialah perancang berasaskan LLM, yang terdiri daripada tiga bahagian (Rajah 3): modul storan yang digunakan untuk menyimpan sejarah sembang antara NPC dan ejen lain Seorang pengaturcara LLM menggunakan antara muka WKM untuk menanyakan pengetahuan pemandangan; dan pembesar suara LLM digunakan untuk mencerna sejarah sembang dan pengetahuan yang ditanya untuk menjana balasan. Apabila NPC menerima mesej, ia mula-mula menyimpan mesej dalam ingatan dan kemudian memajukan sejarah yang dikemas kini kepada pengaturcara LLM. Kemudian, pengaturcara akan berulang kali memanggil antara muka data untuk menanyakan pengetahuan pemandangan yang diperlukan. Akhirnya, pengetahuan dan sejarah dihantar kepada penceramah LLM, yang menjana respons. . maklumat. LLM belakang NPC dalam eksperimen ini termasuk GPT-4o, InternLM2-Chat-20B dan Llama-3-70BInstruct.
Seperti yang ditunjukkan dalam Rajah 4, dalam eksperimen rujukan, pengarang menggunakan penilaian manusia-dalam-gelung. NPC secara rawak memilih objek dan menerangkannya, dan anotasi manusia memilih objek berdasarkan penerangan. Rujukan berjaya jika anotasi manusia dapat mencari objek yang betul sepadan dengan penerangan. Dalam eksperimen pembumian, GPT-4o memainkan peranan sebagai anotor manusia, memberikan penerangan tentang objek yang kemudiannya diletakkan oleh NPC. Pembumian berjaya jika NPC dapat mencari objek yang sepadan.
Kadar kejayaan (rujukan dan pembumian) dalam Jadual 2 menunjukkan bahawa kadar ketepatan LLM yang berbeza adalah masing-masing 95.9%-100% dan 83.3%-93.2%, yang mengesahkan bahawa rangka kerja NPC kami boleh merujuk kepada LLM yang berbeza. dan ketepatan pembumian.
Dalam eksperimen QA berpusatkan objek, penulis menilai keupayaan NPC untuk memberikan maklumat peringkat objek kepada ejen dengan menjawab soalan dalam tugas navigasi. Mereka mereka bentuk saluran paip untuk menjana plot navigasi berpusatkan objek yang mensimulasikan senario dunia sebenar. Dalam senario ini, ejen bertanya soalan NPC untuk mendapatkan maklumat dan mengambil tindakan berdasarkan jawapan. Memandangkan soalan ejen, penulis menilai NPC berdasarkan persamaan semantik antara jawapannya dan jawapan sebenar. Skor keseluruhan yang ditunjukkan dalam Jadual 2 (QA) menunjukkan bahawa NPC boleh memberikan bantuan navigasi yang tepat dan berguna.
GRBench: Penanda Aras untuk Menilai Ejen Terwujud
GRBench ialah alat penilaian komprehensif untuk menilai keupayaan ejen robotik. Untuk menilai keupayaan ejen robotik mengendalikan tugas harian, GRBench menyertakan tiga penanda aras: navigasi penyetempatan objek, navigasi penyetempatan sosial dan operasi penyetempatan. Kesukaran penanda aras ini secara beransur-ansur meningkat, begitu juga dengan kemahiran yang diperlukan oleh robot.
Disebabkan kebolehan robot berkaki yang sangat baik untuk merentas rupa bumi, penulis mengutamakan ia sebagai ejen utama. Walau bagaimanapun, dalam senario berskala besar, adalah mencabar bagi algoritma semasa untuk melaksanakan persepsi peringkat tinggi, perancangan dan kawalan peringkat rendah secara serentak dan mencapai hasil yang memuaskan.
Kemajuan terkini GRBench telah membuktikan kebolehlaksanaan melatih dasar berketepatan tinggi untuk kemahiran tunggal dalam simulasi Diilhamkan oleh ini, versi awal GRBench akan menumpukan pada tugas peringkat tinggi dan menyediakan strategi kawalan berasaskan pembelajaran sebagai API, seperti. sebagai berjalan dan memilih dan tempat. Hasilnya, penanda aras mereka menyediakan persekitaran fizikal yang lebih realistik, merapatkan jurang antara simulasi dan dunia sebenar.
Gambar di bawah menunjukkan beberapa contoh tugasan GRBench.
Gambar di bawah adalah gambaran keseluruhan ejen asas. Modul pembumian (a) memproses data deria mentah menjadi maklumat kaya semantik, dan modul memori (b) menyimpan maklumat sejarah seperti sejarah pemerhatian tindakan. Modul keputusan (c) terdiri daripada VLM atau LLM dan membuat keputusan tindakan berdasarkan maklumat daripada (a) dan (b), manakala modul tindakan (d) melaksanakan tindakan output. Persekitaran mensimulasikan perubahan fizikal yang dibawa oleh tindakan dan menjana data deria. Ejen boleh memilih untuk meminta penasihat NPC untuk arahan lanjut mengenai tugas itu.
Hasil penilaian kuantitatif
Pengarang menjalankan analisis perbandingan rangka kerja ejen yang dipacu model besar di bawah bahagian belakang model besar yang berbeza dalam tiga ujian penanda aras. Seperti yang ditunjukkan dalam Jadual 4, mereka mendapati bahawa prestasi strategi rawak adalah hampir 0, menunjukkan bahawa tugas mereka tidak mudah. Mereka memerhatikan prestasi keseluruhan yang jauh lebih baik dalam ketiga-tiga penanda aras apabila menggunakan model besar yang agak unggul sebagai bahagian belakang. Perlu dinyatakan bahawa mereka memerhatikan bahawa Qwen berprestasi lebih baik daripada GPT-4o dalam dialog (lihat Jadual 5).
Selain itu, berbanding dengan menggunakan model besar berbilang modal secara langsung untuk membuat keputusan, rangka kerja ejen yang dicadangkan dalam artikel ini menunjukkan keunggulan yang jelas. Ini menunjukkan bahawa walaupun model berskala besar multimodal terkini tidak mempunyai keupayaan generalisasi yang kukuh untuk tugasan yang terkandung di dunia sebenar. Walau bagaimanapun, kaedah dalam artikel ini juga mempunyai ruang yang besar untuk penambahbaikan. Ini menunjukkan bahawa walaupun tugas seperti navigasi yang telah dikaji selama bertahun-tahun masih jauh daripada diselesaikan sepenuhnya apabila tetapan tugasan yang lebih dekat dengan dunia sebenar diperkenalkan.
Keputusan penilaian kualitatif
Rajah 7 menunjukkan serpihan kecil yang dilakukan oleh ejen LLM dalam tugasan "Social Loco-Navigation" untuk menggambarkan cara ejen berinteraksi dengan NPC. Ejen boleh bercakap dengan NPC sehingga tiga kali untuk menanyakan lebih banyak maklumat tugas. Pada t = 240, ejen menavigasi ke kerusi dan bertanya kepada NPC jika kerusi ini ialah kerusi sasaran. NPC kemudiannya menyediakan maklumat persisian tentang sasaran untuk mengurangkan kekaburan. Dengan bantuan NPC, ejen berjaya mengenal pasti kerusi sasaran melalui proses interaksi yang serupa dengan tingkah laku manusia. Ini menunjukkan bahawa NPC dalam kertas ini boleh menyediakan interaksi sosial semula jadi untuk mengkaji interaksi dan kerjasama robot manusia.
Atas ialah kandungan terperinci Versi robot 'Stanford Town' ada di sini, dibina khas untuk penyelidikan perisikan yang terkandung. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!