


Kejayaan model 3D Vincent! MVDream akan datang, menjana model 3D ultra-realistik dalam satu ayat
Ini luar biasa!
Kini anda boleh mencipta model 3D yang cantik dan berkualiti tinggi dengan hanya beberapa perkataan?
Tidak, blog asing membuka Internet dan meletakkan sesuatu yang dipanggil MVDream di hadapan kami.
Pengguna boleh mencipta model 3D seperti hidup dengan hanya beberapa perkataan.
Dan apa yang berbeza dari sebelum ini ialah MVDream nampaknya benar-benar "faham" fizik.
Mari kita lihat betapa hebatnya MVDream ini~
MVDream
Adik lelaki itu berkata bahawa dalam era model besar, kita telah melihat terlalu banyak model penjanaan teks dan model penjanaan imej. Dan prestasi model-model ini semakin berkuasa.
Kami kemudian menyaksikan kelahiran model video Vincent dengan mata kepala kami sendiri, dan sudah tentu model 3D yang akan kami sebutkan hari ini
Bayangkan hanya dengan menaip ayat, anda boleh menjana objek yang kelihatan seperti wujud di dunia nyata Model itu malah mengandungi semua butiran yang diperlukan, betapa hebatnya pemandangan seperti itu
Dan ini pastinya bukan satu tugas yang mudah, terutamanya apabila pengguna perlu menjana model dengan perincian yang cukup realistik.
Mari kita lihat kesannya dahulu~
Di bawah gesaan yang sama, apa yang ditunjukkan di hujung kanan ialah produk siap MVDream
model boleh dilihat dengan mata kasar. Beberapa model pertama benar-benar melanggar fakta objektif dan hanya betul apabila dilihat dari sudut tertentu.
Sebagai contoh, dalam empat gambar pertama, model yang dihasilkan sebenarnya mempunyai lebih daripada dua telinga. Walaupun gambar keempat kelihatan lebih terperinci, apabila diputar ke sudut tertentu, kita dapati wajah watak itu cekung, dengan telinga terlekat padanya.
Siapa yang tahu?
Ini adalah situasi yang ditunjukkan kepada anda dari beberapa sudut, tetapi ia tidak boleh dilihat dari sudut lain, ia akan mengancam nyawa
Model MVDream yang dihasilkan di hujung kanan adalah jelas tidak sama. Tidak kira bagaimana model 3D diputar, anda tidak akan merasakan apa-apa yang tidak konvensional.
Ini yang disebut sebelum ini, MVDream tahu ilmu fizik dengan baik dan tidak akan mencipta beberapa perkara yang pelik untuk memastikan setiap pandangan mempunyai dua telinga
Adik lelaki itu menunjukkan bahawa menilai model 3D Kunci kejayaan adalah untuk memerhati sama ada perspektif yang berbeza adalah realistik dan berkualiti tinggi
, dan juga memastikan model itu koheren dari segi ruang, bukan seperti model dengan berbilang telinga di atas.
Salah satu kaedah utama menjana model 3D ialah mensimulasikan perspektif kamera dan kemudian menjana apa yang boleh dilihat dari perspektif tertentu.
Dalam erti kata lain, ini dipanggil 2D lifting. Ini bermakna menggabungkan perspektif berbeza bersama-sama untuk membentuk model 3D terakhir.
Situasi berbilang telinga di atas berlaku kerana model generatif tidak memahami sepenuhnya maklumat bentuk keseluruhan objek dalam ruang tiga dimensi. Dan MVDream hanyalah satu langkah besar ke hadapan dalam hal ini.
Model baharu ini menyelesaikan masalah konsistensi sebelumnya dalam perspektif 3D
Pensampelan penyulingan pecahan
Kaedah ini dipanggil pensampelan penyulingan skor dan dibangunkan oleh DreamFusion🜎 pegun teknik pensampelan, kita perlu terlebih dahulu memahami seni bina yang diguna pakai oleh kaedah ini
Dalam erti kata lain, ini sebenarnya hanyalah satu lagi model resapan imej dua dimensi, serupa dengan model DALLE, MidJourney dan Stable Diffusion
Secara lebih khusus, segala-galanya bermula daripada model DreamBooth yang telah dilatih sebelumnya ialah model sumber terbuka berdasarkan graf mentah Stable Diffusion.
Perubahan akan datang, bermakna keadaan telah berubah
#🎜 🎜🎜#Apa yang dilakukan oleh pasukan penyelidik seterusnya ialah memberikan set imej berbilang paparan dan bukannya satu imej sahaja. Langkah ini memerlukan set data tiga dimensi pelbagai objek untuk diselesaikan.Di sini, penyelidik mengambil berbilang paparan objek 3D daripada set data, menggunakannya untuk melatih model dan kemudian menggunakannya untuk menjana pandangan ini ke belakang.
Kaedah khusus ialah menukar blok perhatian diri biru dalam gambar di bawah kepada blok perhatian diri tiga dimensi iaitu penyelidik sahaja perlu menambah satu dimensi untuk membina semula berbilang imej, bukan satu imej.
Dalam gambar di bawah, kita dapat melihat bahawa kamera dan langkah masa dimasukkan ke dalam model untuk setiap paparan untuk membantu model memahami imej mana yang akan digunakan Di mana, dan pandangan mana yang perlu dijana
Kini, semua imej disambungkan bersama dan penjanaan dilakukan bersama-sama juga. Jadi mereka boleh berkongsi maklumat dan lebih memahami gambaran besarnya.
Pertama, teks dimasukkan ke dalam model, dan kemudian model dilatih untuk membina semula objek dengan tepat daripada set data
Dan di sinilah pasukan penyelidik menggunakan proses pensampelan penyulingan pecahan berbilang pandangan. Kini, dengan model resapan berbilang paparan, pasukan boleh menjana berbilang paparan objek.
Seterusnya, kita perlu menggunakan pandangan ini untuk membina semula model 3D yang konsisten dengan dunia sebenar, bukan hanya pandangan
#🎜 🎜#
Di bawah bimbingan rendering awal, penyelidik mula menggunakan berbilang Model resapan perspektif menghasilkan beberapa versi bising bagi imej awal
Untuk model memahami bahawa versi imej yang berbeza perlu dihasilkan, penyelidik menambah bunyi sementara masih mampu Selepas menerima maklumat latar belakang
Seterusnya, model ini boleh digunakan untuk menjana lagi imej yang lebih berkualiti
#🎜🎜 #
Untuk menjana hasil yang lebih baik dalam langkah seterusnya, tujuan langkah ini adalah untuk lebih memahami bahagian imej yang mana model NeRF harus fokus pada
# 🎜 🎜# Ulangi proses ini sehingga model 3D yang memuaskan dijana
#🎜 🎜🎜#
Bagi penilaian kualiti penjanaan imej model resapan berbilang pandangan dan pertimbangan bagaimana reka bentuk berbeza akan mempengaruhi prestasinya, beginilah cara pasukan beroperasi.Pertama, mereka membandingkan pilihan modul perhatian untuk membina model ketekalan pandangan silang.
Pilihan ini termasuk:
(1) Penyegerakan automatik masa satu dimensi digunakan secara meluas dalam video model penyebaran Perhatian;
(3) Gunakan semula modul perhatian diri 2D sedia ada untuk perhatian 3D.
Untuk menunjukkan perbezaan antara modul ini dengan tepat, dalam eksperimen ini, penyelidik menggunakan 8 bingkai perubahan perspektif 90 darjah untuk melatih model agar lebih sepadan dengan tetapan video# 🎜🎜#
Dalam eksperimen, pasukan penyelidik juga mengekalkan resolusi imej yang lebih tinggi, iaitu 512×512 sebagai model SD asal. Seperti yang ditunjukkan dalam rajah di bawah, penyelidik mendapati bahawa walaupun dengan perubahan perspektif yang terhad dalam adegan statik, perhatian diri sementara masih dipengaruhi oleh perubahan kandungan dan tidak dapat mengekalkan konsistensi perspektif# Pasukan membuat hipotesis bahawa ini adalah kerana perhatian sementara hanya boleh bertukar maklumat antara piksel yang sama dalam bingkai yang berbeza, manakala piksel yang sepadan mungkin berjauhan apabila sudut pandangan berubah.
Sebaliknya, menambah perhatian 3D baharu tanpa konsistensi pembelajaran boleh membawa kepada kemerosotan kualiti yang teruk.
Para penyelidik percaya bahawa ini adalah kerana mempelajari parameter baharu dari awal akan menggunakan lebih banyak data latihan dan masa, yang tidak berlaku apabila model tiga dimensi adalah terhad. Berkenaan. Mereka mencadangkan strategi untuk menggunakan semula mekanisme perhatian kendiri 2D untuk mencapai konsistensi optimum tanpa mengurangkan kualiti penjanaan dan bilangan paparan kepada 4, perbezaan antara modul ini akan menjadi lebih kecil. Walau bagaimanapun, untuk mencapai konsistensi yang terbaik, penyelidik membuat pilihan mereka berdasarkan pemerhatian awal dalam eksperimen berikut.
Selain itu, penyelidik melaksanakan pensampelan penyulingan pecahan berbilang pandangan dalam perpustakaan threestudio (thr) dan memperkenalkan Provides panduan untuk penyebaran pelbagai perspektif. Perpustakaan ini melaksanakan kaedah penjanaan model teks-ke-3D yang terkini di bawah rangka kerja bersatu
Para penyelidik menggunakan volum tersirat dalam threestudio Sebagai pelaksanaan perwakilan tiga dimensi, termasuk grid cincang berbilang resolusi
Apabila mengkaji paparan kamera, penyelidik menggunakan pemaparan dengan Set data tiga dimensi telah diambil sampel oleh dua kamera dengan cara yang sama. Pengoptimum AdamW telah digunakan dan kadar pembelajaran ditetapkan kepada 0.01 Diturunkan kepada 0.5 langkah dan 0.02 langkah #
Berikut adalah lebih banyak kes: #🎜 🎜#
Pasukan penyelidik menggunakan teks 2D pada model imej, melakukan sintesis berbilang paparan dan melalui proses berulang, mencipta kaedah model teks kepada 3D
Kaedah baru ini pada masa ini mempunyai beberapa batasan, Masalah utama ialah resolusi imej yang dihasilkan hanya 256x256 piksel, yang boleh dikatakan sangat rendah pastinya akan mengehadkan keluasan kaedah ini sedikit sebanyak, kerana jika set data terlalu kecil, ia tidak akan dapat mencerminkan dunia kita yang kompleks secara lebih realistik.
Atas ialah kandungan terperinci Kejayaan model 3D Vincent! MVDream akan datang, menjana model 3D ultra-realistik dalam satu ayat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
