Pada awal tahun baharu, Google AI telah mula mengusahakan model penjanaan imej teks sekali lagi.
Kali ini, model baharu mereka Muse mencapai SOTA baharu (pada masa ini tahap terbaik) pada set data CC3M.
Dan kecekapannya jauh lebih baik daripada DALL·E 2 dan Imagen yang popular di seluruh dunia (kedua-duanya adalah model resapan), serta Parti (yang merupakan model autoregresif).
——Masa penjanaan imej resolusi 512x512 tunggal dimampatkan kepada 1.3 saat sahaja.
Dari segi penyuntingan imej, anda boleh mengedit imej asal hanya dengan arahan teks.
(Nampak macam tak perlu risau lagi nak belajar PS~)
Kalau nak kesan yang lebih jitu, boleh pilih posisi mask dan edit kawasan tertentu. Sebagai contoh, gantikan bangunan di latar belakang dengan belon udara panas.
Sebaik sahaja Muse diumumkan secara rasmi, ia dengan pantas menarik perhatian ramai Pada masa ini, siaran asal telah menerima 4,000+ suka.
Melihat satu lagi karya agung daripada Google, sesetengah orang telah mula meramalkan:
Persaingan di kalangan pembangun AI sangat sengit sekarang, nampaknya bahawa 2023 Ia akan menjadi tahun yang sangat menggembirakan.
Mari kita bincangkan tentang Muse yang baru dikeluarkan oleh Google.
Pertama sekali, dari segi kualiti imej yang dihasilkan, kebanyakan karya Muse mempunyai imej yang jelas dan kesan semula jadi.
Mari kita lihat lebih banyak contoh untuk merasainya~
Contohnya, bayi sloth yang memakai topi bulu sedang mengendalikan komputer; :
Pelbagai subjek yang biasanya di luar jangkauan wujud bersama secara harmoni dalam satu gambar tanpa ada rasa percanggahan.
Jika anda fikir ini hanyalah asas AIGC, anda juga boleh melihat fungsi penyuntingan Muse.
Sebagai contoh, penukaran pakaian sekali klik (anda juga boleh menukar jantina):
Ini tidak memerlukan sebarang topeng dan boleh dilakukan dalam satu ayat .
Dan jika anda menggunakan topeng, anda boleh mencapai 6 lagi operasi, termasuk menukar latar belakang dengan satu klik, dari tempat asal ke New York, Paris, dan kemudian ke San Francisco.
Anda juga boleh pergi dari tepi laut ke London, ke lautan bunga, atau terbang ke cincin Zuhal di angkasa untuk menikmati papan selaju yang menarik lompat ikan lumba-lumba.
(Apalah lelaki, bukan sahaja anda boleh mengembara dengan mudah di awan, tetapi anda juga boleh terbang ke langit dengan satu klik...)
Kesannya sungguh luar biasa. Jadi apakah sokongan teknikal di sebalik Muse? Mengapakah kecekapan lebih tinggi daripada DALL·E 2 dan Imagen?
Sebab penting ialah DALL·E 2 dan Imagen perlu menyimpan semua pengetahuan yang dipelajari dalam parameter model semasa proses latihan.
Akibatnya, mereka perlu memerlukan model yang lebih besar dan lebih besar serta lebih banyak data latihan untuk memperoleh lebih banyak pengetahuan - mengikat Lebih Baik dan Lebih Besar bersama-sama.
Harganya ialah bilangan parameter adalah besar dan kecekapan juga terjejas.
Menurut pasukan Google AI, kaedah utama yang mereka gunakan dipanggil: Pemodelan imej bertopeng.
Ini ialah kaedah pra-latihan penyeliaan sendiri yang muncul. Idea asasnya ialah:
Sebahagian daripada imej input disembunyikan secara rawak dan kemudian dibina semula melalui tugas teks yang telah dilatih.
Model Muse dilatih pada topeng spatial label diskret dan digabungkan dengan teks yang diekstrak daripada model besar bahasa pra-latihan untuk meramalkan label imej bertopeng secara rawak.
Pasukan Google mendapati bahawa menggunakan pra-terlatih The large model bahasa boleh menjadikan pemahaman AI tentang bahasa lebih terperinci dan teliti.
Dari segi output, kerana AI mempunyai pemahaman yang baik tentang hubungan ruang, postur dan elemen objek lain, imej yang dijana boleh menjadi ketepatan tinggi.
Berbanding dengan model resapan ruang piksel seperti DALL·E 2 dan Imagen, Muse menggunakan token diskret dan mempunyai lebih sedikit lelaran pensampelan.
Selain itu, berbanding model autoregresif seperti Parti, Muse menggunakan penyahkodan selari, yang lebih cekap.
Seperti yang dinyatakan sebelum ini, Muse bukan sahaja telah meningkatkan kecekapan, tetapi juga cemerlang dalam kualiti imej yang dihasilkan.
Para penyelidik membandingkannya dengan DALL·E, LAFITE, LDM, GLIDE, DALL·E 2, serta Imagen dan Parti Google sendiri, dan menguji skor FID dan CLIP mereka.
(Skor FID digunakan untuk menilai kualiti imej yang dihasilkan. Semakin rendah skor, semakin tinggi kualiti; skor CLIP mewakili kesesuaian antara teks dan imej. Semakin tinggi skor, semakin baik .)
Paparan hasil , skor sifar pukulan FID-30K model Muse-3B dalam set pengesahan COCO ialah 7.88, kedua selepas model Imagen-3.4B dan Parti-20B dengan parameter yang lebih besar.
Lebih baik lagi, model Muse-900M mencapai SOTA baharu pada set data CC3M, dengan skor FID 6.06, yang juga bermakna ia sepadan dengan teks paling tinggi.
Pada masa yang sama, skor CLIP model ialah 0.26, yang juga mencapai tahap tertinggi dalam tempoh yang sama.
Selain itu, untuk mengesahkan lagi kecekapan pengeluaran imej Muse, penyelidik juga membandingkan masa penjanaan imej tunggal Muse dan model lain:
Muse mencapai kelajuan terpantas pada resolusi 256x256 dan 512x512: 0.5s dan 1.3s.
Pasukan penyelidik Muse berasal dari Google dan dua pengarang bersama ialah Huiwen Chang dan Han Zhang.
Huiwen Chang, kini seorang penyelidik kanan di Google.
Dia belajar di Universiti Tsinghua untuk ijazah sarjana mudanya dan menerima PhD dari Universiti Princeton Dia mempunyai pengalaman latihan di Adobe, Facebook, dll.
Han Zhang menerima ijazah sarjana mudanya dari China Agricultural University, ijazah sarjananya dari Beijing University of Posts and Telecommunications, dan PhD dalam sains komputer dari Rutgers University.
Arah penyelidikannya ialah penglihatan komputer, pembelajaran mendalam dan analisis imej perubatan.
Walau bagaimanapun, perlu dinyatakan bahawa Muse masih belum dikeluarkan secara rasmi.
Sesetengah netizen bergurau bahawa walaupun ia sepatutnya sangat wangi, disebabkan "sifat kencing" Google, Muse mungkin masih lama lagi daripada keluaran rasminya - lagipun, mereka masih mempunyai AI belum dikeluarkan pada 2018.
Bercakap mengenainya, apakah pendapat anda tentang kesan Muse?
Adakah anda menantikan keluaran rasminya?
Portal: https://www.php.cn/link/854f1fb6f65734d9e49f708d6cd84ad6
Pautan rujukan: https://twitter.com/AlphaSignalAI/status
Atas ialah kandungan terperinci Kecekapan menghancurkan DALL·E 2 dan Imagen, model baharu Google mencapai SOTA baharu, dan juga boleh mengendalikan PS dalam satu ayat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!