CVPR 2024 |. Dengan bantuan cahaya berstruktur saraf, Universiti Zhejiang merealisasikan pemerolehan masa nyata dan pembinaan semula fenomena tiga dimensi dinamik-AI-php.cn

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Pembinaan semula fenomena fizikal tiga dimensi dinamik yang cekap dan berkualiti tinggi seperti asap merupakan isu penting dalam penyelidikan saintifik berkaitan Ia mempunyai prospek aplikasi yang luas dalam pengesahan reka bentuk aerodinamik, pemerhatian meteorologi tiga dimensi dan bidang lain. Dengan membina semula jujukan ketumpatan tiga dimensi secara kolektif yang berubah dari semasa ke semasa, saintis boleh lebih memahami dan mengesahkan pelbagai fenomena fizikal yang kompleks di dunia nyata.

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

^{Rajah 1 menunjukkan kepentingan memerhati fenomena fizikal tiga dimensi dinamik untuk penyelidikan saintifik. Gambar menunjukkan NFAC terowong angin terbesar di dunia menjalankan eksperimen aerodinamik ke atas entiti trak komersial.}

Walau bagaimanapun, agak sukar untuk memperoleh dan membina semula medan ketumpatan 3D dinamik dengan kualiti tinggi dalam dunia nyata dengan cepat. Pertama, maklumat tiga dimensi sukar diukur secara langsung melalui penderia imej dua dimensi biasa (seperti kamera). Di samping itu, fenomena dinamik yang berubah-ubah berkelajuan tinggi menuntut keupayaan pemerolehan fizikal yang tinggi: pensampelan lengkap medan ketumpatan tiga dimensi tunggal perlu dipintas dalam masa yang sangat singkat, jika tidak, medan ketumpatan tiga dimensi itu sendiri akan berubah. Cabaran asas di sini ialah cara menyelesaikan jurang maklumat antara sampel pengukuran itu sendiri dan hasil pembinaan semula medan ketumpatan tiga dimensi dinamik.

Kerja penyelidikan arus perdana semasa menggunakan pengetahuan sedia ada untuk mengimbangi kekurangan maklumat dalam sampel pengukuran Kos pengiraan adalah tinggi, dan kualiti pembinaan semula adalah buruk apabila syarat terdahulu tidak dipenuhi. Berbeza daripada idea penyelidikan arus perdana, pasukan penyelidik Makmal Utama Kebangsaan Reka Bentuk Berbantukan Komputer dan Sistem Grafik Universiti Zhejiang percaya bahawa kunci untuk menyelesaikan masalah itu terletak pada meningkatkan kandungan maklumat sampel ukuran unit.

Pasukan penyelidik bukan sahaja menggunakan AI untuk mengoptimumkan algoritma pembinaan semula, tetapi juga menggunakan AI untuk membantu mereka bentuk kaedah pengumpulan fizikal untuk mencapai pengoptimuman bersama perisian dan perkakasan automatik sepenuhnya didorong oleh matlamat yang sama, pada asasnya meningkatkan jumlah maklumat tentang objek sasaran dalam sampel ukuran unit. Dengan mensimulasikan fenomena optik fizikal di dunia nyata, kecerdasan buatan boleh memutuskan cara menayangkan cahaya berstruktur, cara mengumpul imej yang sepadan dan cara membina semula medan ketumpatan tiga dimensi dinamik daripada buku sampel. Akhirnya, pasukan penyelidik hanya menggunakan prototaip perkakasan ringan yang mengandungi projektor tunggal dan sebilangan kecil kamera (1 atau 3) untuk mengurangkan bilangan corak cahaya berstruktur untuk memodelkan medan ketumpatan tiga dimensi tunggal (resolusi spatial 128x128x128) hingga 6, mencapai set pemerolehan Cekap 40 medan ketumpatan tiga dimensi sesaat.

Pasukan secara inovatif mencadangkan penyahkod satu dimensi yang ringan dalam algoritma pembinaan semula, menggunakan cahaya input tempatan sebagai sebahagian daripada input penyahkod, dan berkongsi parameter penyahkod di bawah bahan berbeza yang ditangkap oleh kamera yang berbeza, mengurangkan tahap kerumitan rangkaian meningkatkan kelajuan pengiraan. Untuk menggabungkan hasil penyahkodan kamera yang berbeza, rangkaian gabungan 3D U-Net dengan struktur ringkas direka bentuk. Pembinaan semula akhir medan ketumpatan tiga dimensi tunggal hanya mengambil masa 9.2 milisaat Berbanding dengan kerja penyelidikan SOTA, kelajuan pembinaan semula meningkat sebanyak 2-3 pesanan magnitud, mencapai pembinaan semula berkualiti tinggi masa nyata bagi medan ketumpatan tiga dimensi. . Kertas penyelidikan berkaitan "Pemerolehan Masa Nyata dan Pembinaan Semula Jilid Dinamik dengan Pencahayaan Berstruktur Neural" telah diterima oleh CVPR 2024, persidangan akademik antarabangsa teratas dalam bidang penglihatan komputer.

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

Pautan kertas: https://svbrdf.github.io/publications/realtimedynamic/realtimedynamic.pdf
Laman utama penyelidikan: https://svbrdf.github.io/realtimedynamics/publications html

Kerja berkaitan

Kerja berkaitan boleh dibahagikan kepada dua kategori berikut mengikut sama ada pencahayaan dikawal semasa proses pengumpulan.

Jenis kerja pertama berdasarkan pencahayaan tidak terkawal tidak memerlukan sumber cahaya khas dan tidak mengawal pencahayaan semasa proses pengumpulan, jadi keperluan untuk keadaan pengumpulan adalah lebih longgar [2,3]. Memandangkan kamera satu pandangan menangkap unjuran dua dimensi bagi struktur tiga dimensi, sukar untuk membezakan struktur tiga dimensi berbeza dengan kualiti tinggi. Dalam hal ini, satu idea adalah untuk meningkatkan bilangan sampel sudut tontonan yang dikumpul, seperti menggunakan tatasusunan kamera padat atau kamera medan cahaya, yang akan mengakibatkan kos perkakasan yang tinggi. Idea lain adalah masih jarang mencuba domain perspektif dan mengisi jurang maklumat melalui pelbagai jenis maklumat terdahulu, seperti heuristik prior, peraturan fizikal atau pengetahuan terdahulu yang dipelajari daripada data sedia ada. Apabila syarat a priori tidak dipenuhi dalam amalan, kualiti hasil pembinaan semula kaedah jenis ini akan merosot. Tambahan pula, overhed pengiraannya terlalu mahal untuk menyokong pembinaan semula masa nyata.

Jenis kerja kedua menggunakan pencahayaan yang boleh dikawal untuk mengawal keadaan pencahayaan secara aktif semasa proses pengumpulan [4,5]. Kerja sedemikian mengekodkan pencahayaan untuk menyiasat dunia fizikal dengan lebih aktif dan juga kurang bergantung pada priors, menghasilkan kualiti pembinaan semula yang lebih tinggi. Bergantung pada sama ada lampu tunggal atau berbilang lampu digunakan secara serentak, kerja berkaitan boleh diklasifikasikan lagi ke dalam kaedah pengimbasan dan kaedah pemultipleksan pencahayaan. Untuk objek fizikal dinamik, yang pertama mesti mencapai kelajuan pengimbasan yang tinggi dengan menggunakan perkakasan yang mahal, atau mengorbankan integriti hasil untuk mengurangkan beban pemerolehan. Yang terakhir ini meningkatkan kecekapan pengumpulan dengan ketara dengan memprogramkan berbilang sumber cahaya secara serentak. Walau bagaimanapun, untuk medan ketumpatan masa nyata pantas berkualiti tinggi, kecekapan pensampelan kaedah sedia ada masih tidak mencukupi [5].

Kerja pasukan Universiti Zhejiang tergolong dalam kategori kedua. Berbeza daripada kebanyakan kerja sedia ada, kerja penyelidikan ini menggunakan kecerdasan buatan untuk mengoptimumkan secara bersama pemerolehan fizikal (iaitu, cahaya berstruktur saraf) dan pembinaan semula pengiraan, dengan itu mencapai pemodelan medan ketumpatan tiga dimensi dinamik yang cekap dan berkualiti tinggi.

Hardware Prototype

Pasukan penyelidikan membina satu projektor komersial (Benq x3000: Resolusi 1920 × 1080, kelajuan 240fps) dan tiga kamera industri (Basler ACA1440-220UMQGR: Resolusi 1440 × 1080, kelajuan 240fps) (ditunjukkan dalam Rajah 3). Enam corak cahaya berstruktur pra-latihan ditayangkan secara kitaran melalui projektor, dan tiga kamera merakam secara serentak, dan pembinaan semula medan ketumpatan tiga dimensi dinamik dilakukan berdasarkan imej yang dikumpul oleh kamera. Sudut empat peranti berbanding objek pengumpulan ialah susunan optimum yang dipilih selepas simulasi daripada eksperimen simulasi yang berbeza.

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

^{Rajah 3: Prototaip perkakasan koleksi. (a) Tangkapan sebenar prototaip perkakasan, dengan tiga tag putih di atas pentas digunakan untuk menyegerakkan kamera dan projektor. (b) Gambar rajah skema hubungan geometri antara kamera, projektor dan subjek (pandangan atas).}

Pemprosesan perisian

Pasukan R&D mereka bentuk rangkaian saraf dalam yang terdiri daripada pengekod, penyahkod dan modul pengagregatan. Berat dalam pengekodnya secara langsung sepadan dengan taburan keamatan cahaya berstruktur semasa pemerolehan. Penyahkod mengambil sampel yang diukur pada satu piksel sebagai input, meramalkan taburan ketumpatan satu dimensi dan menginterpolasinya ke dalam medan ketumpatan tiga dimensi. Modul pengagregatan menggabungkan medan ketumpatan tiga dimensi berbilang yang diramalkan oleh penyahkod yang sepadan dengan setiap kamera ke dalam hasil akhir. Dengan menggunakan cahaya berstruktur yang boleh dilatih dan penyahkod satu dimensi yang ringan, kajian ini dapat dengan lebih mudah mempelajari perhubungan penting antara corak cahaya berstruktur, foto dua dimensi dan medan ketumpatan tiga dimensi, menjadikannya kurang berkemungkinan terlalu muat pada data latihan . Rajah 4 di bawah menunjukkan saluran paip keseluruhan, dan Rajah 5 menunjukkan struktur rangkaian yang berkaitan. . proses persampelan. Kajian bermula dengan medan ketumpatan tiga dimensi yang disimulasikan/sebenar di mana corak cahaya berstruktur pra-optimum (iaitu pemberat dalam pengekod) mula-mula diunjurkan. Untuk setiap piksel yang sah dalam setiap paparan kamera, semua ukurannya dan lampu kejadian setempat yang disampel semula disalurkan kepada penyahkod untuk meramalkan taburan ketumpatan satu dimensi pada sinar kamera yang sepadan. Semua taburan ketumpatan daripada satu kamera kemudiannya dikumpulkan dan disampel semula ke dalam medan ketumpatan tiga dimensi tunggal. Dalam kes berbilang kamera, kajian ini menggabungkan medan ketumpatan yang diramalkan bagi setiap kamera untuk mendapatkan hasil akhir. Rajah 5: Seni bina 3 komponen utama rangkaian: pengekod, penyahkod dan modul pengagregatan.

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

Paparan KeputusanRajah 6 menunjukkan hasil separa pembinaan semula kaedah ini untuk empat adegan dinamik berbeza. Untuk menjana kabus air dinamik, para penyelidik menambah ais kering pada botol yang mengandungi air cecair untuk mencipta kabus air, dan mengawal aliran melalui injap dan menggunakan tiub getah untuk membimbingnya lebih jauh ke peranti pengumpulan.

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

^{Rajah 6: Hasil pembinaan semula adegan dinamik yang berbeza. Setiap baris ialah hasil visualisasi bahagian terpilih bingkai yang dibina semula dalam urutan kabus air tertentu Bilangan sumber kabus air dalam pemandangan dari atas ke bawah ialah: 1, 1, 3 dan 2 masing-masing. Seperti yang ditunjukkan dalam tanda oren di sebelah kiri atas, A, B dan C masing-masing sepadan dengan imej yang dikumpul oleh tiga kamera input, dan D ialah imej rujukan tangkapan nyata serupa dengan perspektif pemaparan hasil pembinaan semula. Cap masa dipaparkan di sudut kiri bawah. Untuk keputusan pembinaan semula dinamik terperinci, sila lihat video kertas.}

Untuk mengesahkan ketepatan dan kualiti penyelidikan ini, pasukan penyelidik membandingkan kaedah ini dengan kaedah SOTA berkaitan pada objek statik sebenar (seperti yang ditunjukkan dalam Rajah 7). Rajah 7 juga membandingkan kualiti pembinaan semula di bawah nombor kamera yang berbeza. Semua keputusan pembinaan semula diplot di bawah perspektif baru yang sama yang belum diperoleh dan dinilai secara kuantitatif oleh tiga metrik penilaian. Seperti yang dapat dilihat daripada Rajah 7, terima kasih kepada pengoptimuman kecekapan pemerolehan, kualiti pembinaan semula kaedah ini adalah lebih baik daripada kaedah SOTA.

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

^{Rajah 7: Perbandingan teknik berbeza pada objek statik sebenar. Dari kiri ke kanan ialah kaedah pemotongan lapisan optik [4], kaedah ini (tiga kamera), kaedah ini (kamera berganda), kaedah ini (kamera tunggal), menggunakan cahaya berstruktur yang direka secara manual di bawah satu kamera [5], PINF SOTA Visualisasi hasil pembinaan semula kaedah [3] dan GlobalTrans [2]. Mengambil keputusan hirisan optik sebagai penanda aras dan untuk semua keputusan lain, ralat kuantitatifnya disenaraikan di sudut kanan bawah imej yang sepadan, dinilai dengan tiga metrik SSIM/PSNR/RMSE (×0.01). Semua medan ketumpatan yang dibina semula dipaparkan menggunakan paparan bukan input, #v mewakili bilangan paparan yang diperoleh dan #p mewakili bilangan corak cahaya berstruktur yang digunakan.}

Pasukan penyelidik juga secara kuantitatif membandingkan kualiti pembinaan semula kaedah berbeza pada data simulasi dinamik. Rajah 8 menunjukkan perbandingan kualiti pembinaan semula jujukan asap simulasi. Untuk hasil pembinaan semula bingkai demi bingkai yang terperinci, sila lihat video kertas.

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

^{Rajah 8: Perbandingan kaedah berbeza pada jujukan asap simulasi. Dari kiri ke kanan adalah nilai sebenar, hasil pembinaan semula kaedah ini, PINF [3] dan GlobalTrans [2]. Hasil pemaparan paparan input dan paparan baharu masing-masing ditunjukkan dalam baris pertama dan kedua. Ralat kuantitatif SSIM/PSNR/RMSE (×0.01) ditunjukkan di sudut kanan bawah imej yang sepadan. Untuk ralat purata bagi keseluruhan urutan yang dibina semula, sila rujuk kepada bahan tambahan kertas itu. Di samping itu, sila lihat video kertas untuk hasil pembinaan semula dinamik bagi keseluruhan jujukan.}

Tinjauan Masa Depan

Pasukan penyelidik merancang untuk menggunakan kaedah ini pada peralatan pemerolehan yang lebih maju (seperti projektor medan cahaya [6]) untuk menjalankan pembinaan semula pemerolehan dinamik. Pasukan itu juga berharap dapat mengurangkan lagi bilangan corak cahaya berstruktur dan kamera yang diperlukan untuk pengumpulan dengan mengumpul maklumat optik yang lebih kaya (seperti keadaan polarisasi). Di samping itu, menggabungkan kaedah ini dengan ekspresi saraf (seperti NeRF) juga merupakan salah satu hala tuju pembangunan masa depan yang diminati oleh pasukan. Akhir sekali, membenarkan AI untuk terlibat secara lebih aktif dalam reka bentuk pemerolehan fizikal dan pembinaan semula pengiraan, dan tidak terhad kepada perisian pasca pemprosesan, mungkin memberikan idea baharu untuk meningkatkan lagi keupayaan persepsi fizikal, dan akhirnya mencapai pemodelan yang cekap dan berkualiti tinggi bagi pelbagai fenomena fizikal yang kompleks.

^Rujukan:

^{[1]. Di Dalam Terowong Angin Terbesar di Dunia https://youtu.be/ubyxYHFv2qw?si=KK994cXtARP3Atwn Franz, Barbara Solenthaler , dan Nils Thuerey Pengangkutan global untuk pembinaan semula bendalir dengan pengawasan diri yang dipelajari Dalam CVPR, halaman 1632–1642, 2021.}

^{[3]. Theobalt, dan Rhaleb Zayer, Fizik memaklumkan medan saraf untuk pembinaan semula asap dengan data yang jarang ACM Transactions on Graphics, 41 (4):1–14, 2022.}

^{, dan Per Einars Paul Debevec. Pemerolehan media penyertaan yang berbeza-beza pada Grafik, 24 (3):812–815, 2005.}

^{[5]. . Belhumeur, dan Ravi Ramamoorthi Cahaya berstruktur mampat untuk memulihkan media penyertaan yang tidak homogen. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35 (3):1–1, 2013.}

^{[6]. Lin, Haoyang Zhou, Chong Zeng, Yaxin Yu, Kun Zhou dan Hongzhi Wu Cahaya berstruktur spatial-sudut bersatu untuk pemerolehan satu pandangan dalam CVPR, halaman 206–215, 2023.}

Atas ialah kandungan terperinci CVPR 2024 |. Dengan bantuan cahaya berstruktur saraf, Universiti Zhejiang merealisasikan pemerolehan masa nyata dan pembinaan semula fenomena tiga dimensi dinamik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!