masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah > Peranti teknologi > AI > 'AI Perspective Eye', pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

'AI Perspective Eye', pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Lepaskan： 2024-03-08 15:46:02

ke hadapan

877 orang telah melayarinya

Oklusi adalah salah satu masalah paling asas tetapi masih tidak dapat diselesaikan dalam penglihatan komputer, kerana oklusi bermaksud kekurangan maklumat visual, manakala sistem penglihatan mesin bergantung pada maklumat visual untuk persepsi dan pemahaman, dan dalam dunia nyata, antara objek Mutual occlusion ada di mana-mana. Kerja terbaru pasukan Andrew Zisserman di Makmal VGG di Universiti Oxford secara sistematik menyelesaikan masalah penyiapan oklusi objek sewenang-wenangnya dan mencadangkan set data penilaian baharu dan lebih tepat untuk masalah ini. Kerja ini dipuji oleh bos MPI Michael Black, akaun rasmi CVPR, akaun rasmi Jabatan Sains Komputer Universiti Southern California, dsb. pada platform X. Berikut ialah kandungan utama kertas kerja "Amodal Ground Truth and Completion in the Wild".

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Pautan kertas: https://arxiv.org/pdf/2312.17247.pdf
Laman utama projek: https://www.acrobots.uk. /research/amodal/
Alamat kod: https://github.com/Championchess/Amodal-Completion-in-the-Wild

Amodal Segmentation direka untuk melengkapkan objek yang Bahagian tersumbat, bahawa ialah, topeng bentuk yang memberikan bahagian objek yang boleh dilihat dan tidak kelihatan. Tugas ini boleh memberi manfaat kepada banyak tugas hiliran: pengecaman objek, pengesanan sasaran, pembahagian contoh, penyuntingan imej, pembinaan semula 3D, pembahagian objek video, penaakulan perhubungan sokongan antara objek, manipulasi robot dan navigasi, kerana dalam tugasan ini diketahui bahawa objek tersumbat adalah utuh Bentuk akan membantu.

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Walau bagaimanapun, cara menilai prestasi model untuk segmentasi bukan mod dalam dunia nyata adalah masalah yang sukar: walaupun terdapat sejumlah besar objek tersumbat dalam banyak gambar, bagaimana untuk mendapatkan rujukan untuk bentuk lengkap objek ini Bagaimana pula dengan topeng standard atau bukan modal? Kerja sebelumnya telah melibatkan anotasi manual topeng bukan modal, tetapi piawaian rujukan untuk anotasi sedemikian sukar untuk dielakkan daripada memperkenalkan ralat manusia, terdapat juga kerja dengan mencipta set data sintetik, seperti melampirkan objek lain secara langsung pada objek lengkap bentuk objek tersumbat diperoleh, tetapi gambar yang diperoleh dengan cara ini bukanlah pemandangan gambar sebenar. Oleh itu, kerja ini mencadangkan kaedah melalui unjuran model 3D untuk membina dataset imej sebenar berskala besar (MP3D-Amodal) yang meliputi pelbagai kategori objek dan menyediakan topeng amodal untuk menilai dengan tepat prestasi pembahagian amodal. Perbandingan set data yang berbeza adalah seperti berikut:

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Secara khusus, mengambil set data MatterPort3D sebagai contoh, untuk mana-mana set data dengan foto sebenar dan struktur tiga dimensi tempat kejadian, kami boleh menggabungkan data daripada semua objek dalam tempat kejadian Bentuk tiga dimensi ditayangkan secara serentak ke kamera untuk mendapatkan topeng modal setiap objek (bentuk yang boleh dilihat, kerana objek itu menutup satu sama lain), dan kemudian bentuk tiga dimensi setiap objek. dalam adegan ditayangkan ke kamera secara berasingan untuk mendapatkan topeng bukan modal objek, iaitu bentuk lengkap. Dengan membandingkan topeng modal dan topeng bukan modal, objek tersumbat boleh dipilih.

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Statistik set data adalah seperti berikut:

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Sampel set data adalah seperti berikut:

Selain itu, untuk menyelesaikan bentuk lengkap tugas pembinaan semula mana-mana objek, Penulis mengekstrak pengetahuan terdahulu tentang bentuk lengkap objek daripada ciri-ciri model Resapan Stabil untuk melaksanakan pembahagian bukan mod bagi mana-mana objek tersumbat. Seni bina khusus adalah seperti berikut (SDAmodal):

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Motivasi untuk menggunakan Ciri Stable Diffusion ialah Stable Diffusion mempunyai keupayaan untuk melengkapkan gambar, jadi ia mungkin mengandungi semua maklumat tentang objek pada tahap tertentu dan kerana Stable Diffusion telah dilatih dengan sejumlah besar gambar, anda boleh mengharapkannya Ciri mempunyai keupayaan untuk memproses sebarang objek dalam mana-mana persekitaran. Berbeza daripada rangka kerja dua peringkat sebelumnya, SDAmodal tidak memerlukan topeng oklusi beranotasi kerana input SDAmodal mempunyai struktur mudah, tetapi menunjukkan keupayaan generalisasi sampel sifar yang kuat (bandingkan Tetapan F dan H dalam jadual berikut, hanya dalam latihan tentang COCOA boleh bertambah baik; pada set data lain dalam domain berbeza dan kategori berbeza); walaupun tiada anotasi objek tersumbat, SDAmodal boleh menambah baik set data sedia ada COCOA yang meliputi pelbagai jenis objek tersumbat dan yang baru dicadangkan Pada set data MP3D-Amodal, Prestasi SOTA (Tetapan H) telah dicapai.

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Selain eksperimen kuantitatif, perbandingan kualitatif juga mencerminkan kelebihan model SDAmodal: Ia boleh diperhatikan daripada rajah di bawah (semua model hanya dilatih menggunakan COCOA), untuk jenis objek tersumbat yang berbeza, sama ada Sama ada ia datang daripada COCOA atau MP3D-Amodal yang lain, SDAmodal boleh meningkatkan kesan pembahagian bukan modal dengan banyak, dan topeng bukan modal yang diramalkan lebih hampir kepada yang sebenar.

AI Perspective Eye, pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek

Untuk butiran lanjut, sila baca kertas asal.

Atas ialah kandungan terperinci 'AI Perspective Eye', pemenang Marr Prize tiga kali Andrew mengetuai pasukan untuk menyelesaikan masalah oklusi dan penyiapan sebarang objek. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan：

ai kereta api

Artikel sebelumnya：Mahkota GPT-4 sudah tiada! Keputusan pengundian manusia arena Claude 3 dikeluarkan: hanya menduduki tempat ketiga Artikel seterusnya：Kerja baharu oleh Tian Yuandong dan lain-lain: Menembusi kesesakan memori dan membenarkan model besar 7B 4090 terlatih

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

Bagaimana LLMS Berfungsi: Pra-latihan ke Latihan Pasca, Rangkaian Neural, Hallucinations, dan Kesimpulan

2025-02-26 03:58:14
Saya menggabungkan blockchain dan AI untuk menjana seni. Di sini ’ s Apa yang berlaku seterusnya.

2025-02-26 03:38:10
Kejuruteraan Prompt Lanjutan: Rantai Pemikiran (COT)

2025-02-26 03:17:10
Pengambilan semula Generasi Tambahan di SQLite

2025-02-26 02:49:09
Cara menggunakan boilerplate berkuasa LLM untuk membina API Node.js anda sendiri

2025-02-26 01:08:13
LLMS untuk pengekodan pada tahun 2024: harga, prestasi, dan pertempuran untuk yang terbaik

2025-02-26 00:46:10
Mendorong model bahasa penglihatan

2025-02-25 23:42:08
Cara Mengukur Kebolehpercayaan Respons Model Bahasa Besar

2025-02-25 22:50:13
Ilusi hidup

2025-02-25 21:54:11
Para saintis serius mengenai model bahasa besar yang mencerminkan pemikiran manusia

2025-02-25 20:45:11

Isu terkini

Mengapa rag gagal dan bagaimana membetulkannya?

2025-03-20 15:33:12
6 pandangan dari Andrew Ng mengenai mengapa pengekodan adalah penting

2025-03-20 15:32:11
Panduan komprehensif untuk kecil kecil

2025-03-20 15:30:16
Meningkatkan kualiti kod dengan refleksi langgraph

2025-03-20 15:29:11
Bagaimana cara menggunakan meja aisberg Apache?

2025-03-20 15:28:09

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan