Dalam ucapan TED 2024 tidak lama dahulu, Li Feifei menerangkan konsep Spatial Intelligence secara terperinci. Beliau sangat gembira dan sangat bersemangat tentang perkembangan pesat bidang penglihatan komputer dalam beberapa tahun kebelakangan ini, dan sedang mewujudkan syarikat permulaan untuk tujuan ini
Dalam ucapan ini, beliau menyebut BEHAVIOR, hasil penyelidikan pasukan Stanford, yang merupakan set data tingkah laku dan gerakan yang mereka "cipta" untuk melatih komputer dan robot tentang cara bertindak dalam dunia tiga dimensi. BEHAVIOR ialah set data besar yang mengandungi gelagat dan tindakan manusia dalam pelbagai senario. Tujuan set data ini adalah untuk membolehkan komputer dan robot lebih memahami dan meniru tingkah laku manusia. Dengan menganalisis sejumlah besar data dalam BEHAVIOR, penyelidik boleh memperoleh
Kini, Wu Jiajun mengetuai pasukan untuk menerbitkan kajian susulan - "BEHAVIOR Vision Suite (BVS) ". Kertas kerja itu juga menerima Sorotan CVPR 2024.
Dalam bidang penglihatan komputer, penilaian sistematik dan pemahaman prestasi model di bawah keadaan yang berbeza memerlukan data kuantitatif dan komprehensif, label tersuai. Walau bagaimanapun, set data visual dunia sebenar sering bergelut untuk memenuhi keperluan ini. Walaupun alternatif yang menjanjikan seperti tugas AI menawarkan alternatif yang menjanjikan, masih terdapat banyak kekurangan dari segi sumber dan kualiti rendering, kepelbagaian data dan realisme sifat fizikal.
Untuk menyelesaikan masalah ini, pasukan penyelidik melancarkan "BEHAVIOR Vision Suite (BVS)".
BVS ialah satu set alat dan sumber yang direka untuk penilaian sistematik model penglihatan komputer. Berdasarkan penanda aras AI yang baru dibangunkan BEHAVIOR-1K, BVS boleh melaraskan parameter, meliputi tahap pemandangan (seperti pencahayaan, penempatan objek) dan tahap objek (seperti konfigurasi bersama, atribut) dan tahap kamera (seperti medan pandangan. , medan pandangan, jarak fokus). Penyelidik boleh melaraskan parameter ini semasa pengumpulan data untuk mengawal eksperimen dengan lebih tepat
Model ini juga menunjukkan kelebihan BVS dalam aplikasi penilaian model dan latihan yang berbeza Termasuk penilaian terkawal parameter bagi model visual dalam Keteguhan kepada perubahan berterusan dalam parameter persekitaran , penilaian sistematik model pemahaman adegan (anotasi visual yang kaya) dan latihan model untuk tugas penglihatan baharu
BEHAVIOR Vision Suite
BVS termasuk dua bahagian: bahagian data dan berdasarkan bahagian data
ini
Bahagian data BVS dikembangkan berdasarkan aset BEHAVIOR-1K, termasuk sejumlah 8841 model objek 3D dan adegan dalaman yang direka oleh 51 artis , dikembangkan kepada 1000 contoh adegan ini penampilan realistik dan meliputi kategori semantik yang kaya Pasukan penyelidik juga menyediakan skrip yang membolehkan pengguna menjana lebih banyak kejadian adegan yang dipertingkatkan secara automatik
Peluasan aset BEHAVIOR-1K
Penjana data boleh disesuaikan
. membolehkan pengguna menggunakan bahagian data BVS dengan mudah untuk memenuhi keperluan mereka Kumpulan data gambar, seperti pemandangan dalaman di bawah cahaya gelap. BVS boleh menjadikan set data yang dihasilkan mempunyai kepelbagaian semantik yang tinggi sambil memenuhi keperluan, sambil memastikan ketepatan dan rasional fizikalnya. Secara khususnya, pengguna boleh mengawal lima aspek berikut: kedudukan kamera, pencahayaan, sifat objek (seperti saiz), status objek (seperti hidup, mati) dan hubungan ruang antara objek. Senario Aplikasi daripada model di bawah perubahan berterusan dalam parameter persekitaran yang berbeza (darjah oklusi, kecerahan ambien, sudut penangkapan, pergerakan sendi objek, medan pandangan), seperti menilai model pengesanan objek apabila pintu peti sejuk berubah daripada tertutup sepenuhnya kepada Semasa proses pembukaan penuh , model boleh mengesan kehadiran peti sejuk dengan betul, memastikan model itu dapat menghadapi pelbagai perubahan persekitaran dalam aplikasi sebenar. Sempadan keupayaan model di bawah keadaan parameter had yang berbeza juga boleh diterokai.
Model SOTA sedia ada masih mempunyai ruang untuk penambahbaikan dalam keteguhan di bawah keadaan yang berubah-ubah (seperti ketinggian kamera)
Prestasi model pengesanan berbeza secara berterusan parameter persekitaran . Ini membolehkan penyelidik menggunakan data yang dijana oleh BVS untuk menilai model ramalan untuk tugasan yang berbeza pada imej yang sama. Pasukan penyelidik menilai model SOTA untuk empat tugas: pengesanan dan pembahagian perkataan terbuka, anggaran kedalaman dan pembinaan semula awan titik, dan mendapati prestasi model pada set data BVS adalah konsisten dengan prestasinya pada penanda aras data sebenar daripada tugasan yang sepadan. Ini menunjukkan bahawa data berkualiti tinggi yang dijana oleh BVS benar-benar mencerminkan dan mewakili data dunia sebenar, dan penyelidik berharap set data tersebut boleh menggalakkan pembangunan model ramalan berbilang tugas. Dalam kod sumber terbuka, pasukan penyelidik juga menyediakan skrip untuk memudahkan pengguna mencuba trajektori di tempat kejadian.
keseluruhan set data pemahaman adegan. Para penyelidik menghasilkan sejumlah besar video traversal dalam adegan perwakilan, setiap satu mengandungi lebih daripada 10 trajektori kamera. Untuk setiap imej, BVS menjana pelbagai label (cth. peta pemandangan, topeng segmentasi, peta kedalaman) Tertib prestasi relatif model SOTA pada data BVS adalah konsisten dengan penanda aras tugas sebenar Melatih model tugas visi baharu bukan sahaja sumbangan data bagi BVS , tetapi juga bagi mereka yang sukar digunakan dalam senario kehidupan sebenar Untuk tugas mengumpul atau melabel data, data BVS juga boleh digunakan untuk latihan model. Pengarang menggunakan BVS untuk menjana 12.5k imej, dan hanya menggunakannya untuk melatih hubungan spatial objek dan model ramalan keadaan. Model ini mencapai skor F1 sebanyak 0.839 dalam senario sebenar tanpa menggunakan data sebenar untuk latihan, mencerminkan keupayaan pemindahan simulasi-ke-sebenar yang sangat baik. Contoh gambarajah set data latihan simulasi dan set data ujian sebenar Menggunakan data yang dijana oleh BVS untuk melatih hubungan spatial objek dan ramalan keadaan. Dengan mengawal dan melaraskan pelbagai parameter secara sistematik dalam proses penjanaan data, penyelidik boleh menilai dan meningkatkan prestasi model penglihatan komputer secara lebih komprehensif, meletakkan asas yang kukuh untuk penyelidikan dan aplikasi masa depan.
Nilai model pemahaman adegan
: Menggunakan imej beranotasi sepenuhnya, prestasi pelbagai model pemahaman adegan dinilai secara sistematik. Latih model tugas visi baharu
BVS menyediakan set alat dan sumber yang berkuasa, menyediakan cara baharu untuk penyelidik penglihatan komputer menjana set data sintetik tersuai.
Atas ialah kandungan terperinci Kemajuan baharu dalam siri 'Spatial Intelligence' Li Feifei, suite 'BVS' baharu pasukan Wu Jiajun menilai model penglihatan komputer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!