Lebih daripada 80 kertas kerja memahami kemajuan penyelidikan "Robot + 3D".
Beberapa masa lalu, pelbagai media melaporkan bahawa World Labs, sebuah syarikat permulaan yang diasaskan oleh sarjana AI terkenal dan profesor Universiti Stanford Li Feifei, telah menyelesaikan dua pusingan pembiayaan dalam masa tiga bulan sahaja, dengan pusingan terbaru pembiayaan Selepas mengumpul kira-kira AS$100 juta, penilaian syarikat telah melebihi AS$1 bilion, menjadikannya sebuah unicorn baharu. Arah pembangunan Makmal Dunia memfokuskan pada "kecerdasan ruang", iaitu membangunkan model yang boleh memahami dunia fizikal tiga dimensi dan mensimulasikan sifat fizikal, lokasi spatial dan fungsi objek. Li Feifei percaya bahawa "kecerdasan ruang" adalah bahagian penting dalam pembangunan AI Pasukannya sedang melatih komputer dan robot untuk mengambil tindakan dalam dunia tiga dimensi di makmal Universiti Stanford Contohnya, menggunakan model bahasa yang besar lengan robot untuk membuka pintu dan melakukan sesuatu mengikut arahan lisan dan tugasan lain. (Untuk butiran, sila lihat "Li Feifei menerangkan hala tuju keusahawanan "kecerdasan ruang", membolehkan AI benar-benar memahami dunia") Untuk menjelaskan konsep "kecerdasan ruang", Li Feifei menunjukkan gambar kucing memanjangkan kakinya Gambar gelas ditolak ke tepi meja. Dalam sekejap, dia berkata, otak manusia boleh menilai "geometri kaca ini, kedudukannya dalam ruang tiga dimensi, hubungannya dengan meja, kucing, dan semua perkara lain ini," kemudian meramalkan apa yang akan berlaku dan mengambil tindakan untuk mencegahnya. Malah, selain Li Feifei, banyak pasukan penyelidik kini memberi perhatian kepada arah penglihatan 3D + robot. Pasukan ini percaya bahawa banyak batasan AI semasa adalah disebabkan model kurang memahami dunia 3D. Jika kita ingin menyelesaikan teka-teki ini, kita mesti melabur lebih banyak tenaga penyelidikan ke arah penglihatan 3D. Selain itu, penglihatan 3D memberikan persepsi mendalam dan pemahaman spatial tentang alam sekitar, yang penting untuk navigasi robot, operasi dan membuat keputusan dalam dunia tiga dimensi yang kompleks. Jadi, adakah maklumat penyelidikan sistematik yang boleh dirujuk oleh penyelidik ke arah ini? Tapak ini baru-baru ini menemui satu: Pautan projek: https://github.com/zubair-irshad/Awesome-Robotics-3DYang ini dipanggil "Awesome-Robotics-3D" The GituHub repository telah mengumpulkan sejumlah lebih daripada 80 kertas kerja dalam arah "Penglihatan 3D + Robotik" Kebanyakan kertas kerja menyediakan kertas kerja, projek dan pautan kod yang sepadan. . Perwakilan
Simulasi, data set dan penanda aras -
Kertas kerja ini termasuk pracetak arXiv, serta kertas kerja daripada persidangan robotik terkemuka seperti RSS, ICRA, IROS dan CORL, serta kertas persidangan teratas dalam bidang penglihatan komputer dan pembelajaran mesin seperti CVPR, ICLR, dan ICML adalah sangat tinggi.Senarai kertas untuk setiap bahagian adalah seperti berikut: 2, LM dan LLM . d: Kertas 1: Apabila LLM melangkah ke Dunia 3D: Tinjauan dan Meta-Analisis Tugasan 3D melalui Model Bahasa Besar Berbilang ModalPautan kertas: https://arxiv.org/pdf/2405.10 Pengenalan Kertas: Kertas kerja ini memberikan gambaran menyeluruh tentang metodologi yang membolehkan LLM memproses, memahami dan menjana data 3D, dan menyerlahkan kelebihan unik LLM seperti pembelajaran dalam konteks, langkah demi langkah penaakulan, keupayaan perbendaharaan kata terbuka dan pengetahuan dunia yang luas, kelebihan ini dijangka memajukan pemahaman dan interaksi ruang dengan ketara dalam sistem kecerdasan buatan yang terkandung. Penyelidikan meliputi pelbagai kaedah perwakilan data 3D daripada awan titik ke Medan Sinaran Neural (NeRF), dan mengkaji integrasinya dengan LLM untuk pemahaman adegan 3D, penjanaan penerangan, menjawab soalan dan dialog, serta agen berasaskan LLM untuk tugas spatial seperti penaakulan, perancangan, dan navigasi. Di samping itu, kertas kerja mengkaji secara ringkas kaedah lain untuk menyepadukan 3D dan bahasa. Melalui meta-analisis kajian ini, makalah ini mendedahkan kemajuan ketara yang dicapai dan menyerlahkan keperluan untuk membangunkan kaedah baharu untuk mengeksploitasi sepenuhnya potensi 3D-LLM. Untuk menyokong penyiasatan ini, penulis telah menubuhkan halaman projek untuk menyusun dan menyenaraikan kertas kerja yang berkaitan dengan topik: https://github.com/ActiveVisionLab/Awesome-LLM-3D
- Paper 2: Kajian Komprehensif Manipulasi Robot Berasaskan Penglihatan 3-D
- Pautan kertas: https://ieeexplore.ieee.org/document/9541299
Pengenalan komprehensif kertas ini: kemajuan penglihatan 3D dalam bidang kawalan robot dianalisis, terutamanya dalam meniru kecerdasan manusia dan memberi robot keupayaan kerja yang lebih fleksibel. Artikel ini membincangkan sistem penglihatan 2D yang biasanya bergantung pada kawalan robot tradisional dan batasannya, dan menunjukkan cabaran yang dihadapi oleh sistem penglihatan 3D di dunia terbuka, seperti pengecaman objek umum dalam latar belakang yang berantakan, anggaran oklusi dan fleksibel seperti manusia. kawalan. Artikel ini merangkumi teknologi utama seperti pemerolehan dan perwakilan data 3D, penentukuran penglihatan robot, pengesanan/pengiktirafan objek 3D, anggaran pose 6 darjah kebebasan, anggaran genggam dan perancangan gerakan. Selain itu, beberapa set data awam, kriteria penilaian, analisis perbandingan dan cabaran semasa diperkenalkan. Akhir sekali, artikel itu meneroka bidang aplikasi berkaitan kawalan robot dan membincangkan hala tuju penyelidikan masa depan dan isu terbuka. Pembaca yang berminat boleh klik pada pautan projek untuk mula belajar.
Atas ialah kandungan terperinci Ingin memahami hala tuju keusahawanan Li Feifei? Berikut ialah senarai kertas kerja mengenai Robotik + 3D. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!