Dihasilkan oleh Big Data Digest
Pengarang: Caleb
Baru-baru ini, ChatGPT boleh dikatakan sangat popular.
Pada 30 November, OpenAI mengeluarkan chatbot ChatGPT dan membukanya kepada umum secara percuma untuk ujian Sejak itu, ia telah popular di China.
Untuk bercakap dengan robot adalah meminta robot melaksanakan arahan tertentu, seperti sebagai memasukkan kunci Perkataan membenarkan AI menjana gambar yang sepadan.
Ini nampaknya bukan sesuatu yang luar biasa bukankah OpenAI turut mengemas kini versi baharu DALL-E pada bulan April?
OpenAI, berapa umur anda? (Kenapa selalu anda?)
Bagaimana jika Digest mengatakan bahawa imej yang dijana ialah imej 3D, panorama HDR atau kandungan imej berasaskan VR?
Baru-baru ini, pasukan penyelidik dari Universiti Teknologi Nanyang di Singapura mencadangkan AI sedemikian selagi pengguna memasukkan adegan yang diterangkan dengan jelas dalam teks, sistem boleh menghasilkan pemandangan 3D yang realistik.
Mari kita lihat kesannya dahulu Sebagai contoh, apabila anda memasuki "jeti kayu coklat di tasik pada siang hari yang dikelilingi oleh pokok hijau", sistem akan memberikan anda ini. jawapan. Kesan cahaya dan terperinci adalah langsung Laman.
Penyelidikan ini diberi tajuk Text2Light: Penjanaan Panorama HDR Dipacu Teks Sifar Diterbitkan .
Pautan kertas: https://arxiv.org/abs/2209.09898
HDRI berkualiti tinggi (imej julat dinamik tinggi), juga dikenali sebagai panorama HDR, kini merupakan cara terbaik untuk mencipta 360- yang realistik darjah adegan 3D kaedah popular.
Memandangkan kesukaran menangkap HDRI, walaupun terdapat banyak teknologi yang boleh menggunakan AI untuk menjana pemandangan 3D, ia pada asasnya memerlukan satu siri tetapan parameter atau sejumlah besar data .
Jadi, penyelidik mencadangkan rangka kerja dipacu teks tangkapan sifar, Text2Light, untuk menjana HDRI resolusi 4K+ dan keseluruhan proses tidak memerlukan data latihan yang sepadan.
Proses penjanaan HDRI boleh dibahagikan kepada dua langkah.
Dalam langkah pertama, teks input diterjemahkan ke dalam panorama LDR berdasarkan perwakilan diskret buku dwikod. Teks input mula-mula dipetakan ke pembenaman teks oleh model CLIP yang telah dilatih, kedua, pensampel global bersyarat teks belajar untuk mencuba semantik keseluruhan daripada buku kod global mengikut teks input kemudian, pensampel tempatan yang menyedari struktur akan disintesis tampalan tempatan dan Buat sintesis.
Langkah kedua ialah menaik taraf keputusan LDR peringkat pertama mengikut pengekodan terpendam berstruktur sebagai perwakilan berterusan. Pengendali pemetaan nada songsang resolusi super (SR-iTMO) yang dicadangkan oleh penyelidik secara serentak boleh meningkatkan resolusi spatial dan julat dinamik panorama.
Dengan cara ini, resolusi 4K boleh dijana tanpa melatih HDRI, yang juga model penjanaan imej paling canggih setakat ini, bersihkan ketidakstabilan penukaran daripada LDR kepada HDR dan cipta sepasang panorama dan teks untuk pembelajaran.
Bagaimanapun, teknologi ini masih dalam peringkat penyelidikan awal dan hanya boleh menghasilkan kandungan imej panorama 360 darjah beresolusi rendah Walau bagaimanapun, pasukan penyelidik merancang untuk menggunakan teknologi semasa dalam Jana imej panorama untuk naik taraf, dan tambahkan kesan peningkatan imej HDR untuk menjadikan imej 3D atau pemandangan VR yang dijana lebih lancar dan menarik untuk ditonton.
Seterusnya, mari kita lihat beberapa operasi.
Muat turun pusat pemeriksaan dahulu dan ambil perhatian bahawa pasukan itu telah mengeluarkan model untuk adegan luaran (pensampel tempatan di luar) dan dalaman (pensampel tempatan dalaman).
Janakan panorama HDR daripada ayat:
python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
Daripada siri teks Jana panorama HDR dalam penerangan:
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4
Jana panorama LDR resolusi rendah (512x1024):
# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy
Panorama HDR yang dijana dengan cara ini boleh digunakan terus dalam mana-mana grafik moden. Ambil pemaparan landskap San Francisco dalam perisian grafik komputer tiga dimensi Blender sebagai contoh Apabila memasukkan fotografi landskap banjaran gunung di bawah langit ungu dan merah jambu, kita akan mendapat imej seperti ini:
<🎜. >
为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。
解包,检查检查Blender的使用情况:
# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help
添加别名:
# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"
然后回到Text2Light代码库,为不同的呈现设置运行以下命令:
blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI
就能得到这样的结果:
该项目也在GitHub上开源了:
GitHub链接:https://github.com/FrozenBurning/Text2Light
这个项目也得到了不少网友的好评。有网友就感叹到,“人类的想象力是没有边界的”,照这个趋势来看我们距离“输入文字就能3D打印出一个真实物体”的时代也不远了。
也有网友表示,当试图输入“一个四层半的榻榻米房间,房间内有推拉门、拉门、餐桌、14寸黑白电视、黑色电话机”,仍然会担心AI能否比较准确地再现这种场景。毕竟在想象中,“这应该是一个有异国情调的房间”。
对这个速成HDR全景图的AI,大家有什么看法呢?也欢迎小伙伴们在评论区分享自己的使用心得~
相关报道:https://www.itmedia.co.jp/news/articles/2210/11/news036.html
Atas ialah kandungan terperinci Dalam dua ayat, biarkan AI menjana adegan VR! Atau jenis panorama 3D atau HDR?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!