Kemajuan baharu dalam siri 'Spatial Intelligence' Li Feifei, suite 'BVS' baharu pasukan Wu Jiajun menilai model penglihatan komputer-AI-php.cn

Dalam ucapan TED 2024 tidak lama dahulu, Li Feifei menerangkan konsep Spatial Intelligence secara terperinci. Beliau sangat gembira dan sangat bersemangat tentang perkembangan pesat bidang penglihatan komputer dalam beberapa tahun kebelakangan ini, dan sedang mewujudkan syarikat permulaan untuk tujuan ini

Dalam ucapan ini, beliau menyebut BEHAVIOR, hasil penyelidikan pasukan Stanford, yang merupakan set data tingkah laku dan gerakan yang mereka "cipta" untuk melatih komputer dan robot tentang cara bertindak dalam dunia tiga dimensi. BEHAVIOR ialah set data besar yang mengandungi gelagat dan tindakan manusia dalam pelbagai senario. Tujuan set data ini adalah untuk membolehkan komputer dan robot lebih memahami dan meniru tingkah laku manusia. Dengan menganalisis sejumlah besar data dalam BEHAVIOR, penyelidik boleh memperoleh

Kini, Wu Jiajun mengetuai pasukan untuk menerbitkan kajian susulan - "BEHAVIOR Vision Suite (BVS) ". Kertas kerja itu juga menerima Sorotan CVPR 2024.

Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

Dalam bidang penglihatan komputer, penilaian sistematik dan pemahaman prestasi model di bawah keadaan yang berbeza memerlukan data kuantitatif dan komprehensif, label tersuai. Walau bagaimanapun, set data visual dunia sebenar sering bergelut untuk memenuhi keperluan ini. Walaupun alternatif yang menjanjikan seperti tugas AI menawarkan alternatif yang menjanjikan, masih terdapat banyak kekurangan dari segi sumber dan kualiti rendering, kepelbagaian data dan realisme sifat fizikal.

Untuk menyelesaikan masalah ini, pasukan penyelidik melancarkan "BEHAVIOR Vision Suite (BVS)".

BVS ialah satu set alat dan sumber yang direka untuk penilaian sistematik model penglihatan komputer. Berdasarkan penanda aras AI yang baru dibangunkan BEHAVIOR-1K, BVS boleh melaraskan parameter, meliputi tahap pemandangan (seperti pencahayaan, penempatan objek) dan tahap objek (seperti konfigurasi bersama, atribut) dan tahap kamera (seperti medan pandangan. , medan pandangan, jarak fokus). Penyelidik boleh melaraskan parameter ini semasa pengumpulan data untuk mengawal eksperimen dengan lebih tepat

Model ini juga menunjukkan kelebihan BVS dalam aplikasi penilaian model dan latihan yang berbeza Termasuk penilaian terkawal parameter bagi model visual dalam Keteguhan kepada perubahan berterusan dalam parameter persekitaran , penilaian sistematik model pemahaman adegan (anotasi visual yang kaya) dan latihan model untuk tugas penglihatan baharu

Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

Pautan projek: vision
io/Pautan kertas:
https://arxiv.org/pdf/2405.09546 Pautan kod:

Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

BEHAVIOR Vision Suite

BVS termasuk dua bahagian: bahagian data dan berdasarkan bahagian data

ini

Bahagian data BVS dikembangkan berdasarkan aset BEHAVIOR-1K, termasuk sejumlah 8841 model objek 3D dan adegan dalaman yang direka oleh 51 artis , dikembangkan kepada 1000 contoh adegan ini penampilan realistik dan meliputi kategori semantik yang kaya Pasukan penyelidik juga menyediakan skrip yang membolehkan pengguna menjana lebih banyak kejadian adegan yang dipertingkatkan secara automatik Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

Peluasan aset BEHAVIOR-1K

Penjana data boleh disesuaikan

. membolehkan pengguna menggunakan bahagian data BVS dengan mudah untuk memenuhi keperluan mereka Kumpulan data gambar, seperti pemandangan dalaman di bawah cahaya gelap

BVS boleh menjadikan set data yang dihasilkan mempunyai kepelbagaian semantik yang tinggi sambil memenuhi keperluan, sambil memastikan ketepatan dan rasional fizikalnya. Secara khususnya, pengguna boleh mengawal lima aspek berikut: kedudukan kamera, pencahayaan, sifat objek (seperti saiz), status objek (seperti hidup, mati) dan hubungan ruang antara objek. Senario Aplikasi daripada model di bawah perubahan berterusan dalam parameter persekitaran yang berbeza (darjah oklusi, kecerahan ambien, sudut penangkapan, pergerakan sendi objek, medan pandangan), seperti menilai model pengesanan objek apabila pintu peti sejuk berubah daripada tertutup sepenuhnya kepada Semasa proses pembukaan penuh , model boleh mengesan kehadiran peti sejuk dengan betul, memastikan model itu dapat menghadapi pelbagai perubahan persekitaran dalam aplikasi sebenar. Sempadan keupayaan model di bawah keadaan parameter had yang berbeza juga boleh diterokai.

Nilai model pemahaman adegan

: Menggunakan imej beranotasi sepenuhnya, prestasi pelbagai model pemahaman adegan dinilai secara sistematik.

: Latih model tugas visi baharu untuk ramalan keadaan objek dan hubungan pada data sintetik, dan nilaikan kebolehpindahannya daripada simulasi kepada aplikasi sebenar untuk memastikan model itu berkesan dalam seks persekitaran sebenar.
Parameter secara terkawal menilai keteguhan model visual apabila parameter persekitaran terus berubah
Dengan menilai model SOTA yang berbeza, penyelidik mendapati model sedia ada masih berprestasi lemah pada data di luar pengedaran biasa. Memandangkan data ini sukar diperoleh atau dilabelkan di dunia nyata, kesimpulan ini sukar dibuat secara langsung daripada set data imej sebenar. Oleh itu, BVS boleh membantu penyelidik menilai keteguhan model di bawah syarat yang menarik minat mereka untuk membangunkan dan menambah baik model dengan lebih baik.

Model SOTA sedia ada masih mempunyai ruang untuk penambahbaikan dalam keteguhan di bawah keadaan yang berubah-ubah (seperti ketinggian kamera)

Prestasi model pengesanan berbeza secara berterusan

Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer parameter persekitaran

. Ini membolehkan penyelidik menggunakan data yang dijana oleh BVS untuk menilai model ramalan untuk tugasan yang berbeza pada imej yang sama.

Pasukan penyelidik menilai model SOTA untuk empat tugas: pengesanan dan pembahagian perkataan terbuka, anggaran kedalaman dan pembinaan semula awan titik, dan mendapati prestasi model pada set data BVS adalah konsisten dengan prestasinya pada penanda aras data sebenar daripada tugasan yang sepadan. Ini menunjukkan bahawa data berkualiti tinggi yang dijana oleh BVS benar-benar mencerminkan dan mewakili data dunia sebenar, dan penyelidik berharap set data tersebut boleh menggalakkan pembangunan model ramalan berbilang tugas. Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

Dalam kod sumber terbuka, pasukan penyelidik juga menyediakan skrip untuk memudahkan pengguna mencuba trajektori di tempat kejadian.

Para penyelidik mengumpul banyak video menyemak imbas adegan ⽤ untuk menilai model pemahaman adegan

keseluruhan set data pemahaman adegan. Para penyelidik menghasilkan sejumlah besar video traversal dalam adegan perwakilan, setiap satu mengandungi lebih daripada 10 trajektori kamera. Untuk setiap imej, BVS menjana pelbagai label (cth. peta pemandangan, topeng segmentasi, peta kedalaman)

Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

Tertib prestasi relatif model SOTA pada data BVS adalah konsisten dengan penanda aras tugas sebenar

Melatih model tugas visi baharu

bukan sahaja sumbangan data bagi BVS , tetapi juga bagi mereka yang sukar digunakan dalam senario kehidupan sebenar Untuk tugas mengumpul atau melabel data, data BVS juga boleh digunakan untuk latihan model.

Pengarang menggunakan BVS untuk menjana 12.5k imej, dan hanya menggunakannya untuk melatih hubungan spatial objek dan model ramalan keadaan. Model ini mencapai skor F1 sebanyak 0.839 dalam senario sebenar tanpa menggunakan data sebenar untuk latihan, mencerminkan keupayaan pemindahan simulasi-ke-sebenar yang sangat baik.

Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

Contoh gambarajah set data latihan simulasi dan set data ujian sebenar

Kemajuan baharu dalam siri Spatial Intelligence Li Feifei, suite BVS baharu pasukan Wu Jiajun menilai model penglihatan komputer

Menggunakan data yang dijana oleh BVS untuk melatih hubungan spatial objek dan ramalan keadaan.

BVS menyediakan set alat dan sumber yang berkuasa, menyediakan cara baharu untuk penyelidik penglihatan komputer menjana set data sintetik tersuai.

Dengan mengawal dan melaraskan pelbagai parameter secara sistematik dalam proses penjanaan data, penyelidik boleh menilai dan meningkatkan prestasi model penglihatan komputer secara lebih komprehensif, meletakkan asas yang kukuh untuk penyelidikan dan aplikasi masa depan.

Atas ialah kandungan terperinci Kemajuan baharu dalam siri 'Spatial Intelligence' Li Feifei, suite 'BVS' baharu pasukan Wu Jiajun menilai model penglihatan komputer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!