Sebaik sahaja Google StyleDrop keluar, ia serta-merta melanda internet.
Memandangkan Malam Berbintang Van Gogh, AI menjadi pakar Van Gogh Selepas pemahaman peringkat atasan tentang gaya abstrak ini, ia boleh mencipta lukisan yang tidak terkira banyaknya.
Satu lagi gaya kartun, objek yang saya nak lukis jauh lebih comel.
Malah, ia boleh mengawal butiran dengan tepat dan mereka bentuk logo gaya asli.
Pesona StyleDrop ialah anda hanya memerlukan satu gambar sebagai rujukan, tidak kira betapa rumitnya gaya artistik itu, anda boleh menyahkonstruk dan mencipta semula ia.
Netizen menyatakan bahawa ini adalah satu lagi alat AI yang menghapuskan pereka.
Penyelidikan letupan StyleDrop ialah produk terbaharu daripada pasukan penyelidik Google.
Alamat kertas: https://arxiv.org/pdf/2306.00983.pdf
Kini, dengan alatan seperti StyleDrop, anda bukan sahaja boleh melukis dengan lebih kawalan, tetapi anda juga boleh menyelesaikan kerja halus yang tidak dapat dibayangkan sebelum ini, seperti melukis logo.
Malah saintis NVIDIA menggelarnya sebagai pencapaian "penomenal".
Pengarang kertas itu memperkenalkan bahawa inspirasi untuk StyleDrop datang daripada Penitis mata (penyerapan warna) /alat pemetik warna).
Begitu juga, StyleDrop juga berharap semua orang boleh dengan cepat dan mudah "memilih" gaya daripada satu/beberapa imej rujukan untuk menjana imej gaya itu.
Seorang sloth boleh mempunyai 18 gaya:
Panda mempunyai 24 gaya:
Lukisan cat air yang dilukis oleh kanak-kanak dikawal dengan sempurna oleh StyleDrop, malah kertas Lipatan mempunyai telah dipulihkan.
Saya perlu katakan, ia terlalu kuat.
Terdapat juga StyleDrop yang merujuk kepada reka bentuk huruf Inggeris dalam gaya yang berbeza:
Ia juga huruf gaya Van Gogh.
Terdapat juga lukisan garisan. Lukisan garisan adalah imej yang sangat abstrak dan memerlukan rasional yang sangat tinggi dalam gubahan gambar.
Sapuan bayang keju dalam gambar asal dipulihkan kepada objek dalam setiap gambar.
Rujuk penciptaan LOGO Android.
Di samping itu, para penyelidik juga memperluaskan keupayaan StyleDrop, bukan sahaja untuk menyesuaikan gaya, digabungkan dengan DreamBooth, tetapi juga untuk menyesuaikan kandungan .
Sebagai contoh, masih dalam gaya Van Gogh, hasilkan lukisan gaya yang serupa untuk Corgi kecil:
Ini satu lagi, Corgi di bawah terasa seperti "Sphinx" pada piramid Mesir.
StyleDrop dibina pada Muse dan terdiri daripada dua bahagian penting:
Salah satunya ialah penalaan halus yang berkesan bagi parameter Transformer visual yang dihasilkan, dan yang lain ialah lelaran dengan kereta api maklum balas.
Kemudian, penyelidik mensintesis imej daripada dua model yang diperhalusi.
Muse ialah model sintesis teks-ke-imej terbaharu berdasarkan Transformer imej yang dijana topeng. Ia mengandungi dua modul sintesis untuk penjanaan imej asas (256 × 256) dan resolusi super (512 × 512 atau 1024 × 1024).
Setiap modul terdiri daripada pengekod teks T, pengubah G, pensampel S dan pengekod imej Ia terdiri daripada penyahkod E dan penyahkod D.
T memetakan gesaan teks t∈T ke ruang benam berterusan E. G memproses pembenaman teks e ∈ E untuk menjana logaritma jujukan token visual l ∈ L. S mengekstrak jujukan token visual v ∈ V daripada logaritma melalui penyahkodan berulang yang menjalankan beberapa langkah inferens pengubah yang dikondisikan pada pembenaman teks e dan token visual dinyahkod daripada langkah sebelumnya.
Akhir sekali, D memetakan jujukan token diskret ke ruang piksel I. Secara ringkasnya, diberi teks gesaan t, komposisi imej I adalah seperti berikut:
Rajah 2 ialah seni bina lapisan pengubah Muse yang dipermudahkan, yang telah diubah suai sebahagiannya untuk menyokong Penalaan Halus Cekap Parameter (PEFT) dan penyesuai.
Gunakan pengubah lapisan L untuk memproses jujukan token visual yang dipaparkan dalam warna hijau di bawah keadaan pembenaman teks e. Parameter yang dipelajari θ digunakan untuk membina pemberat untuk penalaan penyesuai.
Untuk melatih θ, dalam banyak kes, penyelidik hanya boleh memberikan gambar sebagai rujukan gaya.
Penyelidik perlu melampirkan gesaan teks secara manual. Mereka mencadangkan pendekatan ringkas dan bertemplat untuk membina gesaan teks yang terdiri daripada penerangan kandungan diikuti dengan frasa gaya perihalan.
Sebagai contoh, penyelidik menggunakan "kucing" untuk menerangkan objek dalam Jadual 1 dan menambahkan "lukisan cat air" sebagai penerangan gaya.
Memasukkan penerangan kandungan dan gaya dalam gesaan teks adalah penting kerana ia membantu memisahkan kandungan daripada gaya, iaitu penyelidikan Matlamat utama kakitangan.
Rajah 3 menunjukkan latihan berulang dengan maklum balas.
Apabila latihan pada imej rujukan gaya tunggal (kotak oren), sesetengah imej yang dijana oleh StyleDrop mungkin mempamerkan kandungan yang diekstrak daripada imej rujukan gaya (kotak merah, imej Latar belakang mengandungi rumah yang serupa kepada imej gaya).
Imej lain (kotak biru) lebih baik memisahkan gaya daripada kandungan. Latihan berulang StyleDrop pada sampel yang baik (kotak biru) menghasilkan keseimbangan yang lebih baik antara gaya dan kesetiaan teks (kotak hijau).
Di sini penyelidik juga menggunakan dua kaedah:
-Score CLIP
Kaedah ini digunakan untuk mengukur penjajaran imej dan teks. Oleh itu, ia boleh menilai kualiti imej yang dijana dengan mengukur skor CLIP (iaitu, persamaan kosinus pembenaman CLIP visual dan tekstual).
Penyelidik boleh memilih imej CLIP dengan markah tertinggi. Mereka memanggil kaedah ini CLIP-feedback iterative training (CF).
Dalam eksperimen, penyelidik mendapati bahawa menggunakan skor CLIP untuk menilai kualiti imej sintetik ialah cara yang berkesan untuk meningkatkan ingatan semula (iaitu, kesetiaan teks) tanpa kehilangan kesetiaan Gaya yang berlebihan.
Walau bagaimanapun, skor CLIP mungkin tidak sejajar sepenuhnya dengan niat manusia, atau menangkap atribut gaya halus.
-HF
Maklum balas manusia (HF) ialah kaedah yang menyuntik niat pengguna terus ke dalam penilaian kualiti imej sintetik dengan cara yang lebih langsung.
Dalam penalaan halus LLM untuk pembelajaran pengukuhan, HF telah membuktikan kuasa dan keberkesanannya.
HF boleh digunakan untuk mengimbangi ketidakupayaan skor CLIP untuk menangkap atribut gaya halus.
Pada masa ini, sejumlah besar penyelidikan telah memfokuskan pada masalah pemperibadian model penyebaran teks ke imej untuk mensintesis imej yang mengandungi berbilang gaya peribadi.
Penyelidik menunjukkan cara DreamBooth dan StyleDrop boleh digabungkan dengan cara yang mudah untuk memperibadikan kedua-dua gaya dan kandungan.
Ini dilakukan dengan mengambil sampel daripada dua taburan generatif yang diubah suai, dipandu oleh θs untuk gaya dan θc untuk kandungan, secara bebas pada gaya dan imej rujukan kandungan masing-masing Parameter penyesuai terlatih.
Tidak seperti produk sedia ada, pendekatan pasukan tidak memerlukan latihan bersama parameter yang boleh dipelajari pada pelbagai konsep, yang membawa kepada keupayaan gabungan yang lebih besar, Kerana penyesuai pra-latihan dilatih pada topik dan gaya individu secara berasingan.
Proses pensampelan keseluruhan penyelidik mengikuti penyahkodan berulang Persamaan (1), dengan cara pensampelan logaritma yang berbeza dalam setiap langkah penyahkodan.
Biarkan t sebagai gesaan teks dan c sebagai gesaan teks tanpa deskriptor gaya Logaritma dikira dalam langkah k seperti berikut:
.
Di mana: γ digunakan untuk mengimbangi StyleDrop dan DreamBooth - jika γ ialah 0, kami mendapat StyleDrop, jika 1, kami mendapat DreamBooth.
Dengan menetapkan γ dengan sewajarnya, kita boleh mendapatkan imej yang sesuai.
Persediaan percubaan
Setakat ini, tiada Pelarasan gaya model generatif imej teks telah dikaji secara meluas.
Oleh itu, penyelidik mencadangkan rancangan eksperimen baharu:
-Pengumpulan data
The penyelidik mengumpul berpuluh-puluh gambar dalam gaya yang berbeza, daripada cat air dan lukisan minyak, ilustrasi rata, rendering 3D kepada arca daripada bahan yang berbeza.
-Konfigurasi Model
Penyelidik menggunakan penyesuai untuk menala StyleDrop berasaskan Muse. Untuk semua percubaan, pengoptimum Adam digunakan untuk mengemas kini berat penyesuai untuk 1000 langkah dengan kadar pembelajaran 0.00003. Melainkan dinyatakan sebaliknya, penyelidik menggunakan StyleDrop untuk mewakili model pusingan kedua, yang dilatih pada lebih daripada 10 imej sintetik dengan maklum balas manusia.
- Penilaian
Penilaian kuantitatif laporan penyelidikan berdasarkan CLIP, mengukur ketekalan gaya dan penjajaran teks. Selain itu, penyelidik menjalankan kajian keutamaan pengguna untuk menilai ketekalan gaya dan penjajaran teks.
Seperti yang ditunjukkan dalam rajah, hasil pemprosesan StyleDrop 18 gambar gaya berbeza dikumpul oleh penyelidik.
Seperti yang anda lihat, StyleDrop mampu menangkap nuansa tekstur, lorekan dan struktur pelbagai gaya, memberikan anda kawalan yang lebih baik terhadap gaya berbanding sebelum ini.
Sebagai perbandingan, penyelidik juga memperkenalkan hasil DreamBooth pada Imagen, DreamBooth's LoRA mengenai Hasil Resapan Stabil pelaksanaan dan penyongsangan tekstual.
Hasil khusus ditunjukkan dalam jadual, penjajaran imej-teks manusia (Teks) dan penjajaran gaya visual (Gaya ) Penunjuk penilaian skor (atas) dan skor CLIP (bawah).
Perbandingan kualitatif bagi (a) DreamBooth, (b) StyleDrop dan (c) DreamBooth + StyleDrop:
Di sini, penyelidik menggunakan dua metrik skor CLIP yang dinyatakan di atas - skor teks dan gaya.
Untuk skor teks, penyelidik mengukur persamaan kosinus antara imej dan pembenaman teks. Untuk skor gaya, penyelidik mengukur persamaan kosinus antara rujukan gaya dan pembenaman imej sintetik.
Para penyelidik menjana sejumlah 1520 imej untuk 190 gesaan teks. Walaupun penyelidik berharap skor akhir akan lebih tinggi, metriknya tidak sempurna.
Sementara latihan berulang (IT) meningkatkan skor teks, yang selaras dengan matlamat penyelidik.
Walau bagaimanapun, sebagai pertukaran, markah gaya mereka pada model pusingan pertama dikurangkan kerana mereka dilatih pada imej sintetik dan gaya mungkin berat sebelah oleh pilih kasih.
DreamBooth pada Imagen adalah lebih rendah daripada StyleDrop dalam skor gaya (0.644 lwn. 0.694 untuk HF).
Para penyelidik mendapati bahawa peningkatan dalam skor gaya DreamBooth pada Imagen tidak jelas (0.569 → 0.644), manakala peningkatan StyleDrop pada Muse adalah lebih jelas (0.556 → 0.694).
Penyelidik menganalisis bahawa penalaan halus gaya pada Muse lebih berkesan berbanding Imagen.
Selain itu, untuk kawalan berbutir halus, StyleDrop menangkap perbezaan gaya yang halus, seperti offset warna, penggredan atau kawalan sudut tajam.
Jika pereka mempunyai StyleDrop, kecekapan kerja 10x lebih pantas telah pun bermula .
Satu hari AI, 10 tahun kehidupan manusia, AIGC berkembang pada kelajuan cahaya, jenis kelajuan cahaya yang membutakan mata manusia!
Alat hanya mengikut trend, dan yang sepatutnya dihapuskan telah pun dihapuskan.
Alat ini lebih mudah digunakan berbanding Midjourney untuk membuat logo.
Atas ialah kandungan terperinci Saingan Midjourney ada di sini! 'Master Penyesuaian' Google StyleDrop meletupkan bulatan seni AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!