Bidang penjanaan imej nampaknya berubah lagi.
Sebentar tadi, OpenAI sumber terbuka model konsisten yang lebih pantas dan lebih baik daripada model penyebaran:
Anda boleh menjana imej berkualiti tinggi tanpa latihan lawan!
Sebaik sahaja berita blockbuster ini dikeluarkan, ia segera meletupkan kalangan akademik.
Walaupun kertas itu sendiri dikeluarkan secara ringkas pada bulan Mac, pada masa itu secara amnya dipercayai bahawa ia hanyalah penyelidikan canggih OpenAI dan butiran tidak akan benar-benar didedahkan kepada umum.
Saya tidak sangka sumber terbuka akan datang secara langsung kali ini. Beberapa netizen serta-merta mula menguji kesan dan mendapati ia hanya mengambil masa kira-kira 3.5 saat untuk menjana kira-kira 64 imej 256×256:
Permainan tamat!
Ini adalah kesan imej yang dihasilkan oleh netizen ini, yang kelihatan cukup bagus:
Juga Netizen bergurau: Kali ini OpenAI akhirnya dibuka!
Perlu dinyatakan bahawa pengarang pertama kertas kerja, saintis OpenAI Song Hao, adalah alumni Tsinghua Pada usia 16 tahun, beliau memasuki Tsinghua Matematik dan Fizikal Kelas Asas Sains melalui Program Kepimpinan.
Mari kita lihat jenis penyelidikan OpenAI yang bersumberkan terbuka kali ini.
Sebagai AI penjanaan imej, ciri terbesar Model Konsistensi ialah ia pantas dan baik.
Berbanding dengan model resapan, ia mempunyai dua kelebihan utama:
Pertama, ia boleh menjana secara langsung sampel imej berkualiti tinggi tanpa latihan lawan.
Kedua, berbanding model resapan yang mungkin memerlukan ratusan atau bahkan ribuan lelaran, model ketekalan boleh mengendalikan pelbagai tugas imej dalam hanya satu atau dua langkah -
termasuk pewarnaan, Denoising , pemarkahan super, dsb., semuanya boleh dilakukan dalam beberapa langkah tanpa memerlukan latihan yang jelas untuk tugasan ini. (Sudah tentu, jika pembelajaran beberapa pukulan dilakukan, kesan penjanaan akan menjadi lebih baik)
Jadi bagaimana model konsistensi mencapai kesan ini?
Dari sudut pandangan prinsip, kelahiran model ketekalan adalah berkaitan dengan model penyebaran generasi ODE (ordinary differential equation).
Seperti yang dapat dilihat dalam rajah, ODE akan mula-mula menukar data imej kepada hingar langkah demi langkah, dan kemudian melakukan penyelesaian terbalik untuk belajar menjana imej daripada hingar.
Dalam proses ini, pengarang cuba memetakan mana-mana titik pada trajektori ODE (seperti Xt, Xt dan Xr) kepada asalnya (seperti X0) untuk pemodelan generatif.
Seterusnya, model yang dipetakan ini dinamakan model ketekalan kerana output mereka semua pada titik yang sama pada trajektori yang sama:
Berdasarkan idea ini ialah model ketekalan tidak lagi perlu melalui lelaran yang panjang untuk menghasilkan imej yang agak berkualiti tinggi, tetapi boleh dijana dalam satu langkah.
Rajah berikut ialah perbandingan model ketekalan (CD) dan model resapan (PD) pada indeks penjanaan imej FID.
Antaranya, PD ialah singkatan kepada penyulingan progresif (progressive distillation), kaedah model difusi terkini yang dicadangkan oleh Stanford dan Google Brain tahun lepas, dan CD (consistency distillation) ialah kaedah penyulingan konsisten.
Ia boleh dilihat bahawa kesan penjanaan imej model konsisten adalah lebih baik daripada model resapan pada hampir semua set data Satu-satunya pengecualian ialah set data bilik 256×256:
Selain itu, penulis juga membandingkan model seperti model resapan, model konsistensi dan GAN pada pelbagai set data lain:
Namun, sesetengah netizen menyebut bahawa imej yang dijana oleh model ketekalan AI sumber terbuka masih terlalu kecil:
Memang menyedihkan model sumber terbuka ini The imej yang dijana oleh versi masih terlalu kecil Ia akan menjadi sangat menarik jika versi sumber terbuka yang menjana imej yang lebih besar boleh disediakan.
Beberapa netizen juga membuat spekulasi bahawa OpenAI mungkin belum dilatih lagi. Tetapi mungkin selepas latihan, kita mungkin tidak dapat kod (kepala anjing manual).
Walau bagaimanapun, mengenai kepentingan kerja ini, TechCrunch berkata:
Jika anda mempunyai sekumpulan GPU, kemudian gunakan model resapan untuk mengulang lebih daripada 1,500 kali dalam satu atau dua minit, dan kesan penjanaan imej pastinya sangat baik
Tetapi jika anda ingin menjana imej dalam masa nyata pada telefon anda atau semasa perbualan sembang, jelas sekali model penyebaran bukanlah pilihan terbaik.
Model ketekalan ialah langkah penting OpenAI seterusnya.
Saya berharap OpenAI akan membuka sumber gelombang AI penjanaan imej dengan resolusi yang lebih tinggi~
Song Hao, pengarang pertama kertas itu, kini merupakan seorang saintis penyelidikan di OpenAI.
Ketika dia berumur 14 tahun, dia telah dipilih ke dalam "Program Kepimpinan Seratus Tahun Baru Universiti Tsinghua" dengan undian sebulat suara daripada 17 hakim. Dalam peperiksaan kemasukan kolej pada tahun berikutnya, beliau menjadi penjaring terbanyak dalam sains di Bandar Lianyungang dan berjaya dimasukkan ke Universiti Tsinghua.
Pada 2016, Song Yang lulus dari kelas asas matematik dan fizik Universiti Tsinghua, dan kemudian pergi ke Stanford untuk melanjutkan pelajaran. Pada 2022, Song Yang menerima PhD dalam sains komputer daripada Stanford dan kemudian menyertai OpenAI.
Semasa PhDnya, kertas pertamanya "Pemodelan Generatif Berasaskan Skor melalui Persamaan Pembezaan Stokastik" turut memenangi Anugerah Kertas Cemerlang ICLR 2021.
Menurut maklumat di laman utama peribadinya, mulai Januari 2024, Song Yang secara rasmi akan menyertai Jabatan Elektronik dan Sains Matematik Pengiraan di California Institute of Technology sebagai pembantu profesor.
Alamat projek:
https://www.php.cn/link/4845b84d63ea5fa8df6268b8d1616a8f
Alamat kertas:
Alamat kertas: https://www.php.cn/link/5f25fbe144e4a81a1b0080b6c1032778
Pautan rujukan:
[1]https://twitter.com/alfrededpl148/1816pl/status/1818pl18
Atas ialah kandungan terperinci Model generasi baharu OpenAI ialah letupan sumber terbuka! Lebih pantas dan lebih kuat daripada Diffusion, karya alumnus Tsinghua Song Yang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!