Dalam dua tahun yang lalu, "model penyebaran imej jana teks" telah menjadi agak popular DALL·E 2 dan Imagen adalah kedua-dua aplikasi yang dibangunkan berdasarkan ini.
Artikel ini dicetak semula dengan kebenaran AI New Media Qubit (ID akaun awam: QbitAI).
Ini adalah bento Jepun yang kelihatan biasa.
Tetapi bolehkah anda percaya, sebenarnya, setiap grid makanan adalah P, dan gambar asal masih milik Mak Cik Jiang:
△ Hanya potong gambar dan tampalkannya, dan kesannya akan kelihatan palsu sepintas lalu
Pengendali di belakangnya bukanlah bos PS, tetapi AI dengan nama yang sangat mudah: Penyebaran Kolaj.
Hanya cari beberapa gambar kecil dan berikannya, dan AI akan dapat memahami kandungan gambar itu sendiri, dan kemudian meletakkan elemen secara semula jadi menjadi gambaran besar - tidak ada kepalsuan sama sekali.
Kesannya memeranjatkan ramai netizen.
Sesetengah peminat PS malah berkata secara langsung:
Ini hanyalah anugerah... Saya harap ia akan tersedia dalam Automatic1111 tidak lama lagi (UI rangkaian yang biasa digunakan oleh pengguna Stable Diffusion juga akan disepadukan ke PS lihat dalam versi pemalam).
Malah, terdapat beberapa versi terjana "bento Jepun" yang dihasilkan oleh AI ini - semuanya kelihatan semula jadi.
Mengapa terdapat beberapa versi? Sebab mengapa saya bertanya adalah kerana pengguna juga boleh menyesuaikannya. Mereka boleh memperhalusi pelbagai butiran tanpa membuat keadaan keseluruhan terlalu keterlaluan.
Selain "bento Jepun", ia juga mempunyai banyak karya cemerlang.
Sebagai contoh, ini adalah bahan yang diberikan kepada AI. Jejak P-picture adalah jelas:
Ini adalah gambar yang disatukan oleh AI. Bagaimanapun, saya tidak melihatnya. Apakah kesan gambar-P yang ada:
Dalam dua tahun yang lalu, "model resapan imej janaan teks" mempunyai benar-benar menjadi popular DALL·E 2 dan Imagen kedua-duanya berdasarkan aplikasi yang dibangunkan ini. Kelebihan model resapan ini ialah imej yang dihasilkan adalah pelbagai dan berkualiti tinggi.
Walau bagaimanapun, teks hanya boleh memainkan peranan standard dalam kabur imej sasaran, jadi pengguna biasanya perlu menghabiskan banyak masa untuk melaraskan gesaan, dan Ia mestilah dipasangkan dengan komponen kawalan tambahan untuk mencapai hasil yang baik.
Ambil bento Jepun yang ditunjukkan di atas sebagai contoh:
Jika pengguna hanya memasukkan "kotak bento yang mengandungi nasi, edamame, halia dan sushi", maka ia tidak menggambarkan jenis bento . Tiada penjelasan di mana makanan itu diletakkan atau rupa setiap makanan. Tetapi jika anda perlu menjelaskannya dengan jelas, pengguna mungkin perlu menulis esei pendek...
Memandangkan perkara ini, pasukan Stanford memutuskan untuk bermula dari sudut lain.
Mereka memutuskan untuk merujuk kepada idea tradisional dan menjana imej akhir melalui teka-teki, dan dengan itu membangunkan model resapan baharu.
Apa yang menarik ialah, secara terang-terangan, model ini boleh dianggap "dieja" menggunakan teknik klasik.
Yang pertama ialah melapis: Gunakan UI pengeditan imej berasaskan lapisan untuk menguraikan imej sumber kepada lapisan RGBA (R, G dan B masing-masing mewakili merah, hijau dan biru, A untuk ketelusan), kemudian susun lapisan ini pada kanvas dan pasangkan setiap lapisan dengan gesaan teks.
Melalui lapisan, pelbagai elemen dalam imej boleh diubah suai.
Setakat ini, lapisan merupakan teknologi matang dalam bidang grafik komputer, tetapi maklumat berlapis sebelum ini biasanya digunakan sebagai hasil output imej tunggal.
Dalam "model penyebaran teka-teki" baharu ini, maklumat berlapis menjadi input untuk operasi seterusnya.
Selain melapis, turut dipadankan dengan teknologi penyelarasan imej berasaskan resapan sedia ada untuk meningkatkan kualiti visual imej.
Ringkasnya, algoritma ini bukan sahaja mengehadkan perubahan dalam atribut tertentu objek (seperti ciri visual), tetapi juga membenarkan atribut (arah, pencahayaan, perspektif, oklusi) berubah.
——Ini mengimbangi hubungan antara pemulihan dan keaslian, dan menghasilkan gambar "serupa secara rohani" tanpa sebarang rasa pelanggaran.
Proses operasi juga sangat mudah Dalam mod penyuntingan interaktif, pengguna boleh membuat kolaj dalam beberapa minit.
Mereka bukan sahaja boleh menyesuaikan susunan ruang dalam adegan (iaitu, meletakkan imej yang diambil dari tempat lain ke dalam kedudukan yang sesuai); mereka juga boleh melaraskan pelbagai komponen yang menjana imej. Menggunakan imej sumber yang sama, anda boleh mendapatkan kesan yang berbeza.
△Lajur paling kanan ialah hasil output AI ini
Dalam mod bukan interaktif (iaitu, pengguna tidak berteka-teki, tetapi meletakkan secara langsung sekumpulan gambar kecil Lemparkan ke AI), dan AI boleh mencipta gambar besar secara automatik dengan kesan semula jadi berdasarkan gambar kecil yang diperolehinya.
Akhir sekali, mari kita bercakap tentang pasukan penyelidik di belakangnya. Mereka adalah sekumpulan guru dan pelajar dari Jabatan Sains Komputer Universiti Stanford.
Pengarang pertama tesis, Vishnu Sarukkai kini merupakan pelajar siswazah di Jabatan Sains Komputer di Stanford, dan masih pelajar sarjana kedoktoran.
Arah penyelidikan utamanya ialah: grafik komputer, penglihatan komputer dan pembelajaran mesin.
Selain itu, pengarang bersama kertas kerja, Linden Li, juga seorang pelajar siswazah di Jabatan Sains Komputer di Stanford.
Semasa belajar di sekolah, dia bekerja sebagai pelatih di NVIDIA selama 4 bulan Dia bekerjasama dengan pasukan penyelidikan pembelajaran mendalam NVIDIA dan mengambil bahagian dalam melatih model penukar visual yang menambah 100J+. parameter.
Alamat kertas: https://arxiv.org/abs/2303.00262
Atas ialah kandungan terperinci Tidak kira jika anda tidak tahu cara menggunakan PS, teknologi teka-teki AI sudah boleh menjadikan yang palsu kelihatan nyata.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!