


Hanya mengambil masa beberapa saat untuk menukar foto ID kepada orang digital Microsoft telah mencapai generasi pertama model penyebaran 3D yang berkualiti tinggi, dan anda boleh menukar penampilan dan penampilan anda dalam satu ayat sahaja.
Nama model penyebaran 3D yang dijana "Rodin" ini diilhamkan oleh artis arca Perancis Auguste Rodin.
Dengan foto ID 2D, anda boleh mereka bentuk avatar permainan 3D dalam beberapa saat sahaja!
Ini adalah pencapaian terbaru model resapan dalam medan 3D. Sebagai contoh, hanya foto lama pengukir Perancis Rodin boleh "mengubah" dia ke dalam permainan dalam beberapa minit:
△Model RODIN dijana berdasarkan foto lama Rodin The 3D imej
malah boleh diubah suai dengan hanya satu ayat. Beritahu Rodin yang dijana AI untuk "memakai baju sejuk dan cermin mata merah":
Tidak suka punggung yang besar? Kemudian tukar kepada "pandangan tocang":
Cuba tukar warna rambut anda semula? Ini adalah "orang bergaya bergaya dengan rambut perang", malah warna janggut tetap:
("Orang yang bergaya bergaya" di mata AI sememangnya agak terlalu bergaya)
Model resapan terjana 3D terbaharu "RODIN" (Roll-out Diffusion Network) di atas adalah daripada Microsoft Research Asia.
RODIN juga merupakan model pertama yang menggunakan model penyebaran generatif untuk menjana avatar digital 3D (Avatar) secara automatik pada data latihan 3D. Kertas kerja telah diterima oleh CVPR 2023.
Mari kita lihat.
Gunakan data 3D secara langsung untuk melatih model resapan
Nama model resapan janaan 3D "Rodin" RODIN ini diinspirasikan oleh artis arca Perancis Auguste Rodin.
Sebelum ini, model imej 3D yang dijana 2D biasanya diperoleh dengan melatih rangkaian adversarial generatif (GAN) atau pengekod auto variasi (VAE) dengan data 2D, tetapi hasilnya selalunya tidak memuaskan.
Penyelidik menganalisis bahawa sebab fenomena ini adalah kaedah ini mempunyai masalah asas yang tidak jelas (ill posed). Iaitu, disebabkan oleh kekaburan geometri imej paparan tunggal, adalah sukar untuk mempelajari pengedaran munasabah bagi avatar 3D berkualiti tinggi hanya melalui sejumlah besar data 2D, mengakibatkan hasil penjanaan yang lemah.
Oleh itu, kali ini mereka cuba terus menggunakan data 3D untuk melatih model resapan , terutamanya menyelesaikan tiga masalah:
- Pertama, cara menggunakan resapan model untuk menghasilkan gambar rajah berbilang pandangan model 3D. Sebelum ini, tiada kaedah praktikal dan preseden untuk diikuti untuk model resapan pada data 3D.
- Kedua, set data imej 3D yang berkualiti tinggi dan berskala besar sukar diperoleh, dan terdapat risiko privasi dan hak cipta, tetapi konsistensi berbilang paparan tidak boleh dijamin untuk imej 3D yang diterbitkan di Internet.
- Akhir sekali, model resapan 2D diperluaskan terus kepada penjanaan 3D, yang memerlukan memori, penyimpanan dan overhed pengkomputeran yang besar.
Untuk menyelesaikan ketiga-tiga masalah ini, penyelidik mencadangkan model penyebaran RODIN "AI Sculptor", yang melepasi tahap SOTA model sedia ada.
Model RODIN menggunakan kaedah Neural Radiation Field (NeRF) dan menggunakan kerja EG3D NVIDIA untuk mengekspresikan ruang 3D secara padat menjadi tiga satah ciri saling berserenjang (Triplanes) dalam ruang dan mengembangkan peta ini menjadi satu 2D Dalam satah ciri, resapan persepsi 3D kemudiannya dilakukan.
Khususnya, ruang 3D diperluaskan dengan ciri dua dimensi pada tiga pandangan satah ortogon bagi satah mendatar, menegak dan menegak Ini bukan sahaja membenarkan model RODIN menggunakan seni bina 2D yang cekap untuk penyebaran persepsi 3D, tetapi juga Mengurangkan dimensi imej 3D kepada imej 2D juga sangat mengurangkan kerumitan dan kos pengiraan.
△Konvolusi sedar 3D dengan cekap memproses ciri 3D
Di sebelah kiri rajah di atas, triplane digunakan untuk menyatakan ruang 3D At kali ini, satah ciri bawah Titik ciri sepadan dengan dua baris dua satah ciri yang lain di sebelah kanan rajah di atas, lilitan persepsi 3D diperkenalkan untuk memproses satah ciri 2D yang diperluas, dengan mengambil kira tiga-; korespondensi wujud dimensi bagi tiga satah.
Secara khusus, tiga elemen utama diperlukan untuk mencapai penjanaan imej 3D:
Pertama, lilitan sedar 3D memastikan korelasi intrinsik tiga satah selepas pengurangan dimensi.
Rangkaian saraf konvolusi (CNN) 2D yang digunakan dalam penyebaran 2D tradisional tidak mengendalikan peta ciri Triplane dengan baik.
Konvolusi sedar 3D bukan sekadar menjana tiga satah ciri 2D, tetapi mempertimbangkan ciri tiga dimensi yang wujud apabila memproses ungkapan 3D tersebut, iaitu ciri 2D salah satu daripada tiga satah pandangan pada dasarnya adalah Unjuran lurus garisan dalam ruang 3D adalah berkaitan dengan ciri unjuran garis lurus yang sepadan dalam dua satah yang lain.
Untuk mencapai komunikasi merentas satah, penyelidik mempertimbangkan korelasi 3D sedemikian dalam konvolusi, dengan itu mensintesis butiran 3D dalam 2D dengan cekap.
Kedua, generasi ekspresi 3D tiga satah konserto ruang tersembunyi.
Penyelidik menyelaras penjanaan ciri melalui vektor terpendam untuk menjadikannya konsisten secara global merentas keseluruhan ruang tiga dimensi, menghasilkan avatar berkualiti tinggi dan pengeditan semantik.
Pada masa yang sama, pengekod imej tambahan juga dilatih dengan menggunakan imej dalam set data latihan, yang boleh mengekstrak vektor pendam semantik sebagai input bersyarat kepada model resapan.
Dengan cara ini, keseluruhan rangkaian generatif boleh dianggap sebagai pengekod auto, menggunakan model resapan sebagai vektor ruang pendam penyahkodan. Untuk kebolehsuntingan semantik, penyelidik menggunakan pengekod imej CLIP beku yang berkongsi ruang terpendam dengan gesaan teks.
Ketiga, sintesis hierarki menjana butiran tiga dimensi kesetiaan tinggi.
Para penyelidik menggunakan model resapan untuk mula-mula menjana satah tiga pandangan resolusi rendah (64×64), dan kemudian menghasilkan satah tiga pandangan resolusi tinggi (256×256) melalui resapan upsampling .
Dengan cara ini, model resapan asas memfokuskan pada keseluruhan penjanaan struktur 3D, manakala model pensampelan naik seterusnya memfokuskan pada penjanaan butiran.
Menjana sejumlah besar data rawak berdasarkan Blender
Pada set data latihan, para penyelidik menggunakan Blender perisian pemaparan 3D sumber terbuka untuk menggabungkan aksara 3D maya secara rawak dicipta secara manual oleh imej artis, ditambah dengan pensampelan rawak daripada sejumlah besar rambut, pakaian, ekspresi dan aksesori, untuk mencipta 100,000 individu sintetik, sambil memberikan 300 imej berbilang paparan dengan resolusi 256*256 untuk setiap individu.
Dalam penjanaan teks kepada avatar 3D, penyelidik menggunakan subset potret set data LAION-400M untuk melatih pemetaan daripada modaliti input kepada ruang tersembunyi model penyebaran 3D, dan akhirnya membenarkan Model RODIN untuk menggunakan hanya satu imej 2D atau penerangan teks boleh mencipta avatar 3D yang realistik.
△Diberikan foto untuk menghasilkan avatar
bukan sahaja boleh menukar imej dalam satu ayat, seperti "seorang lelaki berambut kerinting dan berjanggut memakai jaket kulit hitam" ":
Malah jantina boleh ditukar sesuka hati, "Wanita berpakaian merah dengan gaya rambut Afrika": (kepala anjing manual)
Para penyelidik juga memberikan demonstrasi demo aplikasi untuk mencipta imej anda sendiri hanya memerlukan beberapa butang:
△Gunakan teks untuk. Penyuntingan potret 3D
Untuk lebih banyak kesan, anda boleh klik pada alamat projek untuk melihat~
△Lebih banyak avatar yang dijana secara rawak
Selepas menjadikan RODIN, langkah seterusnya pasukan Apakah rancangannya?
Menurut pengarang Microsoft Research Asia, kerja semasa RODIN tertumpu terutamanya pada potret separuh panjang 3D Ini juga berkaitan dengan fakta bahawa ia terutamanya menggunakan data muka untuk latihan, tetapi Penjanaan imej 3D Permintaan tidak terhad kepada wajah manusia.
Langkah seterusnya, pasukan akan mempertimbangkan untuk mencuba menggunakan model RODIN untuk mencipta lebih banyak pemandangan 3D, termasuk bunga, pokok, bangunan, kereta dan rumah, dsb., untuk mencapai matlamat utama "menjana segala-galanya 3D dengan satu model".
Alamat kertas:
https://arxiv.org/abs/2212.06135
Halaman projek:
https://3d-avatar-diffusion.microsoft.com
Atas ialah kandungan terperinci Hanya mengambil masa beberapa saat untuk menukar foto ID kepada orang digital Microsoft telah mencapai generasi pertama model penyebaran 3D yang berkualiti tinggi, dan anda boleh menukar penampilan dan penampilan anda dalam satu ayat sahaja.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu
