Lajur AIxiv ialah lajur di mana kandungan akademik dan teknikal diterbitkan di laman web ini. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Apabila kita mengambil jam tangan mekanikal, kita akan melihat dail dan tangan dari hadapan, dan mahkota dan gelang dari sisi Terbuka Di bahagian belakang jam tangan anda akan melihat gear dan pergerakan yang kompleks. Setiap perspektif menyediakan maklumat berbeza yang digabungkan untuk memahami keseluruhan pandangan tiga dimensi objek yang dimanipulasi. Jika anda mahu robot belajar melaksanakan tugas yang kompleks dalam kehidupan sebenar, anda perlu terlebih dahulu membuat robot memahami sifat objek kendalian dan objek dikendalikan, serta tiga yang sepadan -ruang operasi berdimensi, termasuk kedudukan, bentuk, dan Hubungan oklusi antara objek, dan hubungan antara objek dan persekitaran, dsb. Kedua, robot perlu memahami arahan bahasa semula jadi, menjalankan perancangan jangka panjang dan pelaksanaan tindakan masa depan yang cekap. Adalah mencabar untuk melengkapkan robot dengan keupayaan daripada persepsi persekitaran kepada ramalan tindakan. Baru-baru ini, Profesor Li Xuelong dari China Telecom Artificial Intelligence Research Institute (TeleAI) bekerjasama dengan Shanghai Artificial Intelligence Laboratory, Universiti Tsinghua dan unit lain untuk "mentesep ingatan manusia-memindai-persepsi manusia" imaginasi" Dalam proses, algoritma operasi terwujud sejagat yang dipacu oleh gabungan pelbagai pandangan telah dicadangkan, yang menyediakan penyelesaian yang boleh dilaksanakan untuk robot mempelajari operasi yang kompleks. Kertas kerja itu telah diterima oleh International Machine Learning Conference ICML 2024, meletakkan asas untuk membina strategi terwujud tiga dimensi universal. Pengenalan video SAM-E adalah seperti berikut: Dalam beberapa tahun kebelakangan ini, keupayaan model asas visual untuk memahami imej telah berkembang pesat. Walau bagaimanapun, masih terdapat banyak cabaran dalam memahami ruang tiga dimensi. Bolehkah kita menggunakan model visual yang besar untuk membantu ejen yang terkandung memahami adegan pengendalian tiga dimensi dan membolehkan mereka menyelesaikan pelbagai tugas pengendalian yang kompleks dalam ruang tiga dimensi? Diilhamkan oleh proses kognitif "perception-memory-thinking-imagination", makalah itu mencadangkan model asas terwujud SAM-Eberdasarkan model segmentasi visual Segment Anything (SAM). Pertama sekali, SAM-E mempunyai keupayaan "
persepsi" yang boleh digesa yang berkuasa Ia menggunakan struktur pembahagian unik SAM untuk tugas tertentu arahan bahasa, dan membolehkan model memberi perhatian kepada adegan dengan menghuraikan arahan teks. objek operasi.
Seterusnya, Transformer berbilang pandangan direka untuk menggabungkan dan menyelaraskan ciri kedalaman, ciri imej dan ciri perintah untuk mencapai objek "
memori" dan operasi "
think" untuk memahami lengan robotik ruang operasi. Secara kebetulan, rangkaian Ramalan Ramalan Tindakan Tindakan dicadangkan untuk urutan tindakan model pada beberapa langkah masa, bayangkan "arahan tindakan, dan menyedari dari persepsi adegan tiga dimensi untuk tindakan yang terkandung keluaran .
- Nama kertas: SAM-E: Memanfaatkan Model Asas Visual dengan Tiruan Jujukan untuk Manipulasi Terwujud
- Pautan kertas: https://sam-embodied.github.pdf
- Alamat projek: https://sam-embodied.github.io/
Dari persepsi dua dimensi kepada persepsi tiga dimensi terhadap gelombang digital , dengan kecerdasan buatan Dengan perkembangan pesat teknologi pintar, kita secara beransur-ansur memasuki era baru - era kecerdasan yang terkandung. Memberi ejen pintar badan dan keupayaan untuk berinteraksi secara langsung dengan dunia sebenar telah menjadi salah satu hala tuju utama penyelidikan semasa.
Untuk mencapai matlamat ini, ejen mesti mempunyai keupayaan persepsi tiga dimensi yang kuat supaya ia dapat memahami persekitaran sekeliling dengan tepat.
Kaedah persepsi dua dimensi tradisional tidak mencukupi apabila berhadapan dengan ruang tiga dimensi yang kompleks Bagaimana untuk membolehkan ejen yang terkandung menguasai keupayaan pemodelan tepat ruang tiga dimensi melalui pembelajaran telah menjadi isu utama yang perlu diselesaikan. dengan segera.
Kerja sedia ada
memulihkan dan membina semula ruang tiga dimensi dari pelbagai perspektif seperti pandangan hadapan, pandangan atas, pandangan sisi, dll. Walau bagaimanapun, sumber pengkomputeran yang diperlukan agak besar, dan ia mempunyai keupayaan generalisasi yang lemah dalam senario yang berbeza terhad. Untuk menyelesaikan masalah ini, kerja ini meneroka pendekatan baharu -
menerapkan kebolehan generalisasi yang berkuasa model visual besar kepada bidang persepsi tiga dimensi terhadap ejen yang terkandung
. SAM-E bercadang untuk menggunakan model besar visual umum SAM dengan keupayaan generalisasi yang kuat untuk persepsi visual melalui penalaan halus yang cekap dalam adegan yang terkandung, keupayaan pengekstrakan ciri, keupayaan pembahagian contoh, pemandangan yang kompleks pemahaman dan keupayaan lain dipindahkan dengan berkesan kepada adegan yang terkandung.
Untuk mengoptimumkan lagi prestasi model asas SAM, konsep rangkaian urutan tindakan diperkenalkan, yang bukan sahaja dapat menangkap ramalan satu tindakan, tetapi juga memahami dengan mendalam hubungan dalaman antara tindakan berturut-turut dan melombong sepenuhnya maklumat masa antara tindakan, dengan itu meningkatkan lagi keupayaan model asas untuk memahami dan menyesuaikan diri dengan adegan yang terkandung. Rajah 1. Rangka kerja keseluruhan SAM-E
Sudut pandangan teras kaedah SAM-E terutamanya merangkumi dua aspek:
Menggunakan struktur SAM yang dipacu segera, adalah model yang berkuasa
dibina, yang mempunyai prestasi generalisasi yang sangat baik di bawah arahan bahasa tugas. Melalui teknologi penalaan halus LoRA, model ini disesuaikan dengan tugas tertentu, meningkatkan lagi prestasinya. teknologi pemodelan tindakan berurutan
untuk menangkap maklumat masa dalam urutan tindakan, lebih memahami perubahan dinamik tugasan, dan melaraskan strategi robot dan kaedah pelaksanaan tepat pada masanya untuk mengekalkan kecekapan pelaksanaan yang tinggi bagi robot.
Persepsi segera dan penalaan halusTeras SAM-E ialah struktur rangkaian yang didorong oleh gesaan arahan tugas, termasuk pengekod visual yang berkuasa dan penyahkod ringan. -
Dalam adegan yang terkandung "gesaan" tugasan dipersembahkan dalam bentuk bahasa semula jadi Sebagai arahan penerangan tugas, pengekod visual menggunakan keupayaan persepsi yang menggesa untuk mengekstrak ciri berkaitan tugas. Rangkaian dasar bertindak sebagai penyahkod dan mengeluarkan tindakan berdasarkan benam visual dan arahan bahasa yang digabungkan.
Dalam fasa latihan, SAM-E menggunakan
LoRA untuk penalaan halus yang cekap
, yang sangat mengurangkan parameter latihan dan membolehkan model penglihatan asas menyesuaikan diri dengan cepat kepada tugas tertentu. Gabungan 3D berbilang perspektifSAM-E memperkenalkan rangkaian Transformer berbilang perspektif untuk menggabungkan input visual daripada pelbagai perspektif dan memahami dengan mendalam ruang tiga dimensi. Kerjanya terbahagi kepada dua peringkat: Perhatian dari segi pandangan dan Perhatian silang pandangan. Mula-mula, lakukan pemprosesan perhatian dalam pandangan pada ciri berbilang paparan secara berasingan, dan kemudian gabungkan berbilang paparan dan penerangan bahasa untuk perhatian paparan hibrid untuk mencapai gabungan maklumat berbilang paparan dan penjajaran bahasa imej. Pemodelan jujukan tindakan Semasa pelaksanaan lengan robotik, kedudukan dan putaran pengesan akhir biasanya menunjukkan trend perubahan yang berterusan dan lancar. Ciri ini membolehkan sambungan rapat dan kesinambungan antara tindakan bersebelahan. Berdasarkan pemerhatian ini, hipotesis pelicinan temporal novel dicadangkan, bertujuan untuk mengeksploitasi sepenuhnya korelasi intrinsik antara tindakan bersebelahan dan mencapai pembelajaran tiruan yang berkesan bagi urutan tindakan.
Secara khusus, rangka kerja SAM-E menangkap corak dan perhubungan dalam urutan tindakan melalui teknologi pemodelan jujukan, menyediakan pengetahuan terdahulu yang tersirat untuk ramalan tindakan dan menyekat kesinambungan tindakan , dengan itu meningkatkan ketepatan dan ketekalan tindakan dengan ketara ramalan.
Dalam aplikasi praktikal, SAM-E membenarkan tindakan berbilang langkah seterusnya dilaksanakan dalam satu ramalan tindakan, meningkatkan kecekapan pelaksanaan.
Rajah 4. Rangkaian ramalan jujukan tindakan
Penggunaan eksperimen
Koleksi tugasan RL pemerhatian berbilang tugasan yang mencabar - pemerhatian komprehensif tugasan RL 3-D . Model SAM-E dengan ketara mengatasi kaedah tradisional lain dalam banyak aspek. pelbagai tugas
, model SAM-E meningkatkan kadar kejayaan misi dengan ketara.
Apabila
menghadapi situasi memindahkan sebilangan kecil sampel kepada tugasan baharu
, SAM-E boleh meningkatkan prestasi tugas baharu dengan berkesan dengan prestasi generalisasi yang kukuh dan kecekapan pelaksanaan yang cekap. ✨ Rajah 6. Contoh tugas operasi tiga dimensi Di samping itu, pemodelan urutan tindakan dengan ketara meningkatkan kecekapan pelaksanaan SAM-E, dan pada masa yang sama, dalam fasa pelaksanaan strategi, berbanding dengan satu tindakan, pelaksanaan jujukan tindakan Bilangan inferens model dikurangkan dengan ketara, dan tugas yang sepadan malah boleh diselesaikan melalui satu inferens model semasa ujian. Robot Kawal , menggunakan dua kamera orang ketiga untuk menangkap Input penglihatan berbilang perspektif, dengan keupayaan penaakulan masa nyata pada lima tugas dunia sebenar. Ringkasan karya ini
kaedah komunikasi berdasarkan gabungan berbilang paparan Menggunakan algoritma operasi yang terkandung, pembahagian visual model besar dan gabungan berbilang paparan digunakan untuk mencapai tiga-. persepsi ruang fizikal dimensi terhadap agen yang terkandung.
Melalui penalaan halus parameter yang cekap, model visual pra-latihan dipindahkan ke adegan yang terkandung, yang boleh menyelesaikan tugas operasi lengan robot 3D yang kompleks bagi arahan bahasa semula jadi. Selain itu, model ini boleh membuat generalisasi dengan cepat kepada tugasan baharu dengan mempelajari sebilangan kecil contoh pakar, menunjukkan kecekapan latihan yang unggul dan kecekapan pelaksanaan tindakan. Lebih penting lagi, SAM-E menggunakan pautan kognitif "Perception-Memory-Thinking-Imagination
" untuk mencapai pemetaan hujung ke hujung daripada data ke tindakan. Kepentingannya bukan sahaja terletak pada aplikasinya dalam kecerdasan yang terkandung, tetapi juga dalam inspirasinya untuk meningkatkan keupayaan kognitif kecerdasan. Dengan meniru persepsi manusia dan kaedah membuat keputusan, ejen pintar boleh lebih memahami dan menyesuaikan diri dengan persekitaran yang kompleks, dengan itu memainkan peranan yang lebih besar dalam pelbagai bidang yang lebih luas. Pengenalan kepada ketua pasukan:
Li Xuelong, CTO dan Ketua Saintis China Telecom, Presiden China Telecom Artificial Intelligence Research Institute (TeleAI). Terutamanya memfokuskan pada kecerdasan buatan, keselamatan tempatan, pemprosesan imej dan kecerdasan yang terkandung.
Atas ialah kandungan terperinci Rangkaian persepsi tiga dimensi baharu tentang kecerdasan yang terkandung, TeleAI & Shanghai AI Lab mencadangkan model gabungan pelbagai perspektif 'SAM-E'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!