Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray-AI-php.cn

Jadual Kandungan

Penjanaan model 3D berdasarkan perwakilan X-Ray

Subset ini mengandungi lebih 60,000 objek 3D. Untuk setiap objek, 4 paparan kamera dipilih secara rawak, meliputi sudut azimut dari -180 hingga 180 darjah dan sudut ketinggian dari -45 hingga 45 darjah, dan jarak dari kamera ke tengah objek ditetapkan kepada 1.5.

Rumah

Peranti teknologi

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

王林

May 06, 2024 pm 06:30 PM

git Model kereta api

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Laman utama projek: https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html
Alamat kertas: https://arxiv.org/abs/ 2404.14329
Alamat kod: https://github.com/tau-yihouxiang/X-Ray
Dataset: https://huggingface.co/datasets/yihouxiang/X-Ray

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Pada masa ini, kecerdasan buatan sedang berkembang pesat dalam bidang kecerdasan manusia. Dalam penglihatan komputer, teknologi penjanaan imej dan video telah menjadi semakin matang, dan model seperti Midjourney dan Stable Video Diffusion digunakan secara meluas. Walau bagaimanapun, model generatif dalam bidang penglihatan 3D masih menghadapi cabaran.

Teknologi penjanaan model 3D semasa biasanya berdasarkan penjanaan dan pembinaan semula video berbilang sudut, seperti model SV3D, yang secara beransur-ansur membina 3D dengan menjana video berbilang sudut dan menggabungkan medan sinaran saraf (NeRF) atau model licin Gaussian 3D ( 3D Gaussian Splatting technology) objek. Kaedah ini terhad terutamanya untuk menjana objek tiga dimensi yang mudah dan tidak tertutup sendiri, dan tidak dapat membentangkan struktur dalaman objek, menjadikan keseluruhan proses penjanaan kompleks dan tidak sempurna, menunjukkan kerumitan dan batasan teknologi ini.

Sebabnya pada masa ini terdapat kekurangan Perwakilan 3D yang fleksibel, cekap dan mudah untuk digeneralisasikan (perwakilan 3D). . Ia boleh menyatakan dengan tepat bentuk permukaan dan tekstur objek yang dilihat dari perspektif kamera Ia boleh menggunakan sepenuhnya fungsi penjanaan video untuk menjana kelebihan model untuk menjana objek 3D. Ia juga boleh menjana struktur 3D dalaman dan luaran objek pada masa yang sama.

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Artikel ini akan menunjukkan secara terperinci prinsip, kelebihan dan prospek aplikasi luas teknologi X-Ray.

Rajah 2. Perbandingan dengan kaedah penjanaan model 3D berasaskan pemaparan.

Inovasi teknikal: perwakilan 3D bagi permukaan dalam dan luar objek

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Dalam setiap arah sinar, L data atribut tiga dimensi termasuk kedalaman, vektor normal, warna, dll. direkodkan satu demi satu pada titik persilangan dengan permukaan objek, dan kemudian data ini disusun dalam bentuk L×H×W untuk merealisasikan penciptaan mana-mana model 3D perwakilan Tensor, ini adalah kaedah perwakilan X-Ray yang dicadangkan oleh pasukan.

Perlu diperhatikan bahawa perwakilan adalah sama dengan format video, jadi model generatif video boleh digunakan untuk membuat model generatif 3D. Proses khusus adalah seperti berikut.

Rajah 3. Sampel sampel X-Ray dengan lapisan berbeza.

1. Proses pengekodan: Tukar model 3D kepada ) untuk merekodkan sifat Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

semua permukaan yang setiap sinar kamera bersilang dengan objek, termasuk kedalaman

, vektor biasa

, dsb. permukaan Untuk kemudahan penunjuk, ini diwakili oleh

Sama ada permukaan wujud di lokasi. Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray Kemudian, dengan mendapatkan semua sinar kamera dan titik permukaan persimpangan lain, ekspresi 3D X-Ray yang lengkap boleh diperolehi, seperti yang ditunjukkan dalam ungkapan berikut dan Rajah 3.

Tukar model 3D sewenang-wenangnya kepada X-Ray melalui proses pengekodan Ia sama dengan format video dan mempunyai bilangan bingkai yang berbeza Biasanya, bilangan bingkai L=8 sudah cukup untuk mewakili objek 3D.

2. Proses penyahkodan: X-Ray kepada model 3D

Memandangkan X-Ray, ia juga boleh ditukar kembali kepada model 3D melalui proses penyahkodan, supaya 3D boleh dijana hanya dengan menghasilkan Model X-Ray. Proses khusus merangkumi dua proses: proses penjanaan awan titik dan proses pembinaan semula permukaan awan titik.

X-Ray ke awan titik: X-Ray mudah ditukar menjadi awan titik Selain koordinat kedudukan titik 3D, setiap titik dalam awan titik juga mempunyai warna dan vektor normal maklumat.

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

di mana r_0 dan r_d masing-masing adalah titik permulaan dan arah normal sinar kamera Dengan memproses setiap sinar kamera, awan titik yang lengkap boleh diperolehi.

Point Cloud ke Mesh Tiga Dimensi: Langkah seterusnya ialah proses menukar awan titik ke dalam mesh tiga dimensi. awan mempunyai vektor biasa, jadi algoritma Screened Poisson digunakan untuk menukar awan titik secara terus kepada model mesh tiga dimensi, yang merupakan model 3D terakhir.

Penjanaan model 3D berdasarkan perwakilan X-Ray

Untuk menjana model X-Ray 3D pelbagai resolusi tinggi, pasukan menggunakan seni bina model resapan video yang serupa dengan format video. Seni bina ini boleh memproses maklumat 3D yang berterusan dan meningkatkan kualiti X-Ray melalui modul upsampling untuk menjana output 3D berketepatan tinggi. Model resapan bertanggungjawab untuk menjana imej 3D terperinci secara beransur-ansur daripada data bising, manakala modul pensampelan naik meningkatkan resolusi dan butiran imej untuk memenuhi standard kualiti tinggi. Struktur khusus ditunjukkan dalam Rajah 4.

Model penjanaan resapan X-Ray

Model resapan menggunakan ruang terpendam dalam penjanaan X-Ray dan biasanya memerlukan pembangunan tersuai autoenkoder kuantisasi-variasi vektor (VQ-VAE) [3] untuk pemampatan data , Proses ini kekurangan model siap menambah beban latihan.

Untuk melatih penjana resolusi tinggi dengan berkesan, pasukan itu menggunakan strategi sintesis lata untuk melatih secara beransur-ansur daripada resolusi rendah ke tinggi melalui teknologi seperti Imagen dan Stable Cascaded untuk menyesuaikan diri dengan sumber pengkomputeran terhad dan meningkatkan Kualiti Imej X-Ray.

Secara khusus, gunakan seni bina U-Net 3D dalam Stable Video Diffusion sebagai model resapan untuk menjana X-Ray resolusi rendah, dan mengekstrak ciri daripada bingkai 2D dan siri masa 1D melalui mekanisme perhatian spatiotemporal, meningkatkan pemprosesan dan Menjelaskan Keupayaan X-Ray, yang penting untuk hasil yang berkualiti tinggi.

Model pensampelan X-Ray

Model resapan pada peringkat sebelumnya hanya boleh menjana imej X-Ray resolusi rendah daripada teks atau imej lain. Dalam peringkat seterusnya, tumpuan adalah untuk menaik taraf X-Ray resolusi rendah ini kepada resolusi yang lebih tinggi.

Pasukan meneroka dua kaedah utama: pensampelan awan titik dan pensampelan video.

Memandangkan gambaran kasar bentuk dan rupa sudah diperoleh, pengekodan data ini ke dalam awan titik dengan warna dan normal adalah proses yang mudah.

Walau bagaimanapun, struktur perwakilan awan titik terlalu longgar dan tidak sesuai untuk ramalan padat Teknik pensampelan awan titik tradisional biasanya hanya meningkatkan bilangan mata, yang mungkin tidak cukup berkesan untuk memperbaik atribut seperti tekstur dan warna. Untuk memudahkan proses dan memastikan konsistensi sepanjang perancangan, kami memilih untuk menggunakan model pensampelan video.

Model ini diadaptasi daripada penyahkod VAE spatiotemporal bagi Stable Video Diffusion (SVD) dan dilatih khas dari awal hingga upsample bingkai X-Ray yang disintesis dengan faktor 4x sambil mengekalkan bilangan lapisan asal. Penyahkod mampu melakukan operasi perhatian secara bebas pada tahap bingkai dan tahap hierarki. Mekanisme perhatian dwi-lapisan ini bukan sahaja meningkatkan resolusi, tetapi juga meningkatkan kualiti keseluruhan imej dengan ketara. Ciri-ciri ini menjadikan model pensampelan video sebagai penyelesaian yang lebih terkoordinasi dan cekap dalam penjanaan X-Ray resolusi tinggi.

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Rajah 4: Rangka kerja penjanaan model 3D berdasarkan perwakilan X-Ray, termasuk model penyebaran X-Ray dan model upsampling X-Ray. .

Subset ini mengandungi lebih 60,000 objek 3D. Untuk setiap objek, 4 paparan kamera dipilih secara rawak, meliputi sudut azimut dari -180 hingga 180 darjah dan sudut ketinggian dari -45 hingga 45 darjah, dan jarak dari kamera ke tengah objek ditetapkan kepada 1.5.

Kemudian gunakan perisian Blender untuk pemaparan, dan hasilkan X-Ray yang sepadan melalui algoritma tuangan sinar yang disediakan oleh perpustakaan trimesh. Melalui proses ini, lebih 240,000 pasang imej dan set data X-Ray boleh dibuat untuk melatih model generatif.

2. Butiran pelaksanaan:

Model penyebaran X-Ray adalah berdasarkan seni bina UNet spatiotemporal yang digunakan dalam Stable Video Diffusion (SVD), dengan sedikit pelarasan: model dikonfigurasikan untuk mensintesis 8 saluran: 1 saluran hit, 1 saluran mendalam dan 6 saluran biasa, Berbanding kepada 4 saluran rangkaian asal.

Memandangkan perbezaan ketara antara pengimejan X-Ray dan video tradisional, model ini dilatih dari awal untuk merapatkan jurang yang besar antara medan X-Ray dan video. Latihan berlangsung selama seminggu pada 8 pelayan GPU NVIDIA A100. Dalam tempoh ini, kadar pembelajaran dikekalkan pada 0.0001, menggunakan pengoptimum AdamW.

Memandangkan X-Ray yang berbeza mempunyai bilangan lapisan, pad atau pangkas yang berbeza kepada 8 lapisan yang sama untuk pemprosesan dan latihan kelompok yang lebih baik, saiz bingkai setiap lapisan ialah 64×64. Untuk model pensampelan tinggi, output lapisan L masih 8, tetapi resolusi setiap bingkai ditingkatkan kepada 256 × 256, yang meningkatkan perincian dan kejelasan X-Ray yang diperbesarkan Hasilnya ditunjukkan dalam Rajah 5 dan 6 .

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray

Figure 5: imej ke x-ray dan ke generasi model 3D figure 6: teks ke x-ray dan ke generasi model 3D Outlook: Band perwakilan baru Kemungkinannya tidak berkesudahan

Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray Dengan kemajuan berterusan pembelajaran mesin dan teknologi pemprosesan imej, prospek aplikasi X-Ray sangat luas.

Pada masa hadapan, teknologi ini mungkin digabungkan dengan teknologi realiti tambahan (AR) dan realiti maya (VR) untuk mencipta pengalaman 3D yang mengasyikkan sepenuhnya untuk pengguna. Bidang pendidikan dan latihan juga boleh mendapat manfaat daripada ini, seperti menyediakan bahan pembelajaran yang lebih intuitif dan eksperimen simulasi melalui pembinaan semula 3D.

Selain itu, aplikasi teknologi X-Ray dalam bidang pengimejan perubatan dan bioteknologi mungkin mengubah pemahaman dan kaedah penyelidikan orang ramai tentang struktur biologi yang kompleks. Nantikan bagaimana ia mengubah cara anda berinteraksi dengan dunia tiga dimensi.

Atas ialah kandungan terperinci Lihat melalui perwakilan 3D dan model generatif objek: Pasukan NUS mencadangkan X-Ray. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7450

Tutorial CakePHP

1374

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Perpustakaan apa yang digunakan untuk operasi nombor terapung di GO? Apr 02, 2025 pm 02:06 PM

Perpustakaan yang digunakan untuk operasi nombor terapung dalam bahasa Go memperkenalkan cara memastikan ketepatannya ...

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal Mar 12, 2025 pm 01:03 PM

Penyelidik dari Universiti Shanghai Jiaoto, Shanghai Ailab dan Universiti Cina Hong Kong telah melancarkan projek sumber terbuka Visual-RFT (Visual Fine Fine Tuning), yang hanya memerlukan sedikit data untuk meningkatkan prestasi model bahasa besar visual (LVLM). Visual-RFT bijak menggabungkan pendekatan pembelajaran tetulang berasaskan peraturan DeepSeek-R1 dengan paradigma penalaan Fine-Penalaan Terbuka (RFT) OpenAI, berjaya memperluaskan pendekatan ini dari medan teks ke medan visual. Dengan merancang ganjaran peraturan yang sepadan untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT mengatasi batasan kaedah DeepSeek-R1 yang terhad kepada teks, penalaran matematik dan bidang lain, menyediakan cara baru untuk latihan LVLM. Vis

GITEE PAGES PENYEDIAAN LAMAN WEB STATIC Gagal: Bagaimana menyelesaikan masalah dan menyelesaikan kesilapan fail tunggal 404? Apr 04, 2025 pm 11:54 PM

Giteepages Statik Laman Web Penggunaan Gagal: 404 Penyelesaian Masalah dan Resolusi Ralat Semasa Menggunakan Gitee ...

Perpustakaan mana yang dibangunkan oleh syarikat besar atau disediakan oleh projek sumber terbuka yang terkenal? Apr 02, 2025 pm 04:12 PM

Perpustakaan mana yang dibangunkan oleh syarikat besar atau projek sumber terbuka yang terkenal? Semasa pengaturcaraan di GO, pemaju sering menghadapi beberapa keperluan biasa, ...

Bagaimana untuk mendapatkan data kawasan perkapalan versi luar negara? Apakah beberapa sumber siap sedia ada? Apr 01, 2025 am 08:15 AM

Penerangan Soalan: Bagaimana untuk mendapatkan data kawasan perkapalan versi luar negara? Adakah sumber sedia ada yang ada? Dapatkan tepat dalam e-dagang rentas sempadan atau perniagaan global ...

Bagaimana menyelesaikan masalah penukaran jenis user_id semasa menggunakan aliran redis untuk melaksanakan beratur mesej dalam bahasa Go? Apr 02, 2025 pm 04:54 PM

Masalah menggunakan redisstream untuk melaksanakan beratur mesej dalam bahasa Go menggunakan bahasa Go dan redis ...

Cara Menjalankan Projek H5 Apr 06, 2025 pm 12:21 PM

Menjalankan projek H5 memerlukan langkah -langkah berikut: memasang alat yang diperlukan seperti pelayan web, node.js, alat pembangunan, dan lain -lain. Membina persekitaran pembangunan, membuat folder projek, memulakan projek, dan menulis kod. Mulakan pelayan pembangunan dan jalankan arahan menggunakan baris arahan. Pratonton projek dalam penyemak imbas anda dan masukkan URL Server Pembangunan. Menerbitkan projek, mengoptimumkan kod, menggunakan projek, dan menyediakan konfigurasi pelayan web.

Python Hourglass Graph Lukisan: Bagaimana untuk mengelakkan kesilapan yang tidak ditentukan? Apr 01, 2025 pm 06:27 PM

Bermula dengan Python: Lukisan Grafik Hourglass dan Pengesahan Input Artikel ini akan menyelesaikan masalah definisi berubah -ubah yang dihadapi oleh pemula python dalam program lukisan grafik Hourglass. Kod ...

See all articles