Pada masa ini, kecerdasan buatan sedang berkembang pesat dalam bidang kecerdasan manusia. Dalam penglihatan komputer, teknologi penjanaan imej dan video telah menjadi semakin matang, dan model seperti Midjourney dan Stable Video Diffusion digunakan secara meluas. Walau bagaimanapun, model generatif dalam bidang penglihatan 3D masih menghadapi cabaran.
Teknologi penjanaan model 3D semasa biasanya berdasarkan penjanaan dan pembinaan semula video berbilang sudut, seperti model SV3D, yang secara beransur-ansur membina 3D dengan menjana video berbilang sudut dan menggabungkan medan sinaran saraf (NeRF) atau model licin Gaussian 3D ( 3D Gaussian Splatting technology) objek. Kaedah ini terhad terutamanya untuk menjana objek tiga dimensi yang mudah dan tidak tertutup sendiri, dan tidak dapat membentangkan struktur dalaman objek, menjadikan keseluruhan proses penjanaan kompleks dan tidak sempurna, menunjukkan kerumitan dan batasan teknologi ini.
Sebabnya pada masa ini terdapat kekurangan Perwakilan 3D yang fleksibel, cekap dan mudah untuk digeneralisasikan (perwakilan 3D). . Ia boleh menyatakan dengan tepat bentuk permukaan dan tekstur objek yang dilihat dari perspektif kamera Ia boleh menggunakan sepenuhnya fungsi penjanaan video untuk menjana kelebihan model untuk menjana objek 3D. Ia juga boleh menjana struktur 3D dalaman dan luaran objek pada masa yang sama.
Artikel ini akan menunjukkan secara terperinci prinsip, kelebihan dan prospek aplikasi luas teknologi X-Ray.
Rajah 2. Perbandingan dengan kaedah penjanaan model 3D berasaskan pemaparan.
Inovasi teknikal: perwakilan 3D bagi permukaan dalam dan luar objek
Dalam setiap arah sinar, L data atribut tiga dimensi termasuk kedalaman, vektor normal, warna, dll. direkodkan satu demi satu pada titik persilangan dengan permukaan objek, dan kemudian data ini disusun dalam bentuk L×H×W untuk merealisasikan penciptaan mana-mana model 3D perwakilan Tensor, ini adalah kaedah perwakilan X-Ray yang dicadangkan oleh pasukan.
Rajah 3. Sampel sampel X-Ray dengan lapisan berbeza.
1. Proses pengekodan: Tukar model 3D kepada ) untuk merekodkan sifat
semua permukaan yang setiap sinar kamera bersilang dengan objek, termasuk kedalaman
, vektor biasa, dsb. permukaan Untuk kemudahan penunjuk, ini diwakili oleh
Sama ada permukaan wujud di lokasi. Kemudian, dengan mendapatkan semua sinar kamera dan titik permukaan persimpangan lain, ekspresi 3D X-Ray yang lengkap boleh diperolehi, seperti yang ditunjukkan dalam ungkapan berikut dan Rajah 3.
Tukar model 3D sewenang-wenangnya kepada X-Ray melalui proses pengekodan Ia sama dengan format video dan mempunyai bilangan bingkai yang berbeza Biasanya, bilangan bingkai L=8 sudah cukup untuk mewakili objek 3D.
2. Proses penyahkodan: X-Ray kepada model 3D
Memandangkan X-Ray, ia juga boleh ditukar kembali kepada model 3D melalui proses penyahkodan, supaya 3D boleh dijana hanya dengan menghasilkan Model X-Ray. Proses khusus merangkumi dua proses: proses penjanaan awan titik dan proses pembinaan semula permukaan awan titik.
di mana r_0 dan r_d masing-masing adalah titik permulaan dan arah normal sinar kamera Dengan memproses setiap sinar kamera, awan titik yang lengkap boleh diperolehi.
Untuk menjana model X-Ray 3D pelbagai resolusi tinggi, pasukan menggunakan seni bina model resapan video yang serupa dengan format video. Seni bina ini boleh memproses maklumat 3D yang berterusan dan meningkatkan kualiti X-Ray melalui modul upsampling untuk menjana output 3D berketepatan tinggi. Model resapan bertanggungjawab untuk menjana imej 3D terperinci secara beransur-ansur daripada data bising, manakala modul pensampelan naik meningkatkan resolusi dan butiran imej untuk memenuhi standard kualiti tinggi. Struktur khusus ditunjukkan dalam Rajah 4.
Model resapan menggunakan ruang terpendam dalam penjanaan X-Ray dan biasanya memerlukan pembangunan tersuai autoenkoder kuantisasi-variasi vektor (VQ-VAE) [3] untuk pemampatan data , Proses ini kekurangan model siap menambah beban latihan.
Untuk melatih penjana resolusi tinggi dengan berkesan, pasukan itu menggunakan strategi sintesis lata untuk melatih secara beransur-ansur daripada resolusi rendah ke tinggi melalui teknologi seperti Imagen dan Stable Cascaded untuk menyesuaikan diri dengan sumber pengkomputeran terhad dan meningkatkan Kualiti Imej X-Ray.
Secara khusus, gunakan seni bina U-Net 3D dalam Stable Video Diffusion sebagai model resapan untuk menjana X-Ray resolusi rendah, dan mengekstrak ciri daripada bingkai 2D dan siri masa 1D melalui mekanisme perhatian spatiotemporal, meningkatkan pemprosesan dan Menjelaskan Keupayaan X-Ray, yang penting untuk hasil yang berkualiti tinggi.
Model resapan pada peringkat sebelumnya hanya boleh menjana imej X-Ray resolusi rendah daripada teks atau imej lain. Dalam peringkat seterusnya, tumpuan adalah untuk menaik taraf X-Ray resolusi rendah ini kepada resolusi yang lebih tinggi.
Pasukan meneroka dua kaedah utama: pensampelan awan titik dan pensampelan video.
Memandangkan gambaran kasar bentuk dan rupa sudah diperoleh, pengekodan data ini ke dalam awan titik dengan warna dan normal adalah proses yang mudah.
Walau bagaimanapun, struktur perwakilan awan titik terlalu longgar dan tidak sesuai untuk ramalan padat Teknik pensampelan awan titik tradisional biasanya hanya meningkatkan bilangan mata, yang mungkin tidak cukup berkesan untuk memperbaik atribut seperti tekstur dan warna. Untuk memudahkan proses dan memastikan konsistensi sepanjang perancangan, kami memilih untuk menggunakan model pensampelan video.
Model ini diadaptasi daripada penyahkod VAE spatiotemporal bagi Stable Video Diffusion (SVD) dan dilatih khas dari awal hingga upsample bingkai X-Ray yang disintesis dengan faktor 4x sambil mengekalkan bilangan lapisan asal. Penyahkod mampu melakukan operasi perhatian secara bebas pada tahap bingkai dan tahap hierarki. Mekanisme perhatian dwi-lapisan ini bukan sahaja meningkatkan resolusi, tetapi juga meningkatkan kualiti keseluruhan imej dengan ketara. Ciri-ciri ini menjadikan model pensampelan video sebagai penyelesaian yang lebih terkoordinasi dan cekap dalam penjanaan X-Ray resolusi tinggi.
Rajah 4: Rangka kerja penjanaan model 3D berdasarkan perwakilan X-Ray, termasuk model penyebaran X-Ray dan model upsampling X-Ray. .
Kemudian gunakan perisian Blender untuk pemaparan, dan hasilkan X-Ray yang sepadan melalui algoritma tuangan sinar yang disediakan oleh perpustakaan trimesh. Melalui proses ini, lebih 240,000 pasang imej dan set data X-Ray boleh dibuat untuk melatih model generatif.
2. Butiran pelaksanaan:
Model penyebaran X-Ray adalah berdasarkan seni bina UNet spatiotemporal yang digunakan dalam Stable Video Diffusion (SVD), dengan sedikit pelarasan: model dikonfigurasikan untuk mensintesis 8 saluran: 1 saluran hit, 1 saluran mendalam dan 6 saluran biasa, Berbanding kepada 4 saluran rangkaian asal.
Memandangkan perbezaan ketara antara pengimejan X-Ray dan video tradisional, model ini dilatih dari awal untuk merapatkan jurang yang besar antara medan X-Ray dan video. Latihan berlangsung selama seminggu pada 8 pelayan GPU NVIDIA A100. Dalam tempoh ini, kadar pembelajaran dikekalkan pada 0.0001, menggunakan pengoptimum AdamW.
Memandangkan X-Ray yang berbeza mempunyai bilangan lapisan, pad atau pangkas yang berbeza kepada 8 lapisan yang sama untuk pemprosesan dan latihan kelompok yang lebih baik, saiz bingkai setiap lapisan ialah 64×64. Untuk model pensampelan tinggi, output lapisan L masih 8, tetapi resolusi setiap bingkai ditingkatkan kepada 256 × 256, yang meningkatkan perincian dan kejelasan X-Ray yang diperbesarkan Hasilnya ditunjukkan dalam Rajah 5 dan 6 .
Figure 5: imej ke x-ray dan ke generasi model 3D figure 6: teks ke x-ray dan ke generasi model 3D Outlook: Band perwakilan baru Kemungkinannya tidak berkesudahan
Dengan kemajuan berterusan pembelajaran mesin dan teknologi pemprosesan imej, prospek aplikasi X-Ray sangat luas.
Pada masa hadapan, teknologi ini mungkin digabungkan dengan teknologi realiti tambahan (AR) dan realiti maya (VR) untuk mencipta pengalaman 3D yang mengasyikkan sepenuhnya untuk pengguna. Bidang pendidikan dan latihan juga boleh mendapat manfaat daripada ini, seperti menyediakan bahan pembelajaran yang lebih intuitif dan eksperimen simulasi melalui pembinaan semula 3D.
Atas ialah kandungan terperinci Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!