DALLE-2 baru-baru ini dikeluarkan oleh OpenAI dan Imagen yang dikeluarkan oleh Google telah mencapai kesan penjanaan teks-ke-imej yang menakjubkan, yang telah menarik perhatian meluas dan menghasilkan banyak aplikasi menarik. Penjanaan teks ke imej ialah tugas biasa dalam bidang sintesis dan penyuntingan imej berbilang modal. Baru-baru ini, penyelidik dari Institut Max Planck, Institut Teknologi Nanyang dan institusi lain menjalankan penyiasatan dan analisis terperinci mengenai status penyelidikan dan pembangunan masa depan bidang besar sintesis dan penyuntingan imej pelbagai mod.
Dalam bab pertama, ulasan ini menerangkan kepentingan dan pembangunan keseluruhan sintesis imej berbilang mod dan tugas penyuntingan, serta sumbangan dan sumbangan struktur keseluruhan kertas ini.
Dalam bab kedua, berdasarkan modaliti data yang membimbing sintesis dan penyuntingan imej, kertas ulasan ini memperkenalkan panduan visual yang lebih biasa digunakan (seperti peta semantik, peta titik utama, tepi peta ), panduan teks, panduan suara, panduan graf pemandangan dan kaedah pemprosesan data modal yang sepadan serta rangka kerja perwakilan bersatu.
Dalam bab ketiga, mengikut kerangka model sintesis dan penyuntingan imej, makalah ini mengklasifikasikan pelbagai kaedah semasa, termasuk kaedah berasaskan GAN, kaedah autoregresif, kaedah model resapan dan saraf kaedah medan sinaran (NeRF).
Memandangkan kaedah berasaskan GAN umumnya menggunakan GAN bersyarat dan penyongsangan GAN tanpa syarat, makalah ini akan Satu kategori dibahagikan lagi kepada keadaan intra-modal (cth. peta semantik, peta tepi), keadaan cross-modal (cth. teks dan pertuturan), dan penyongsangan GAN (modaliti bersatu) dan diterangkan secara terperinci.
Berbanding dengan kaedah berasaskan GAN, kaedah model autoregresif boleh memproses data berbilang modal secara lebih semula jadi dan menggunakan model Transformer yang popular pada masa ini. Kaedah autoregresif secara amnya mula-mula mempelajari pengekod pengkuantitian vektor untuk mewakili imej secara diskret sebagai jujukan token, dan kemudian memodelkan pengedaran token secara autoregresif. Memandangkan data seperti teks dan pertuturan boleh diwakili sebagai token dan digunakan sebagai syarat untuk pemodelan autoregresif, pelbagai sintesis imej berbilang modal dan tugas penyuntingan boleh disatukan menjadi satu rangka kerja.
Baru-baru ini, model resapan berapi juga telah digunakan secara meluas Sintesis multimodal dan tugas penyuntingan. Sebagai contoh, DALLE-2 dan Imagen yang menakjubkan kedua-duanya dilaksanakan berdasarkan model resapan. Berbanding dengan GAN, model penjanaan resapan mempunyai beberapa sifat yang baik, seperti objektif latihan statik dan kebolehskalaan yang mudah. Kertas kerja ini mengklasifikasikan dan menganalisis kaedah sedia ada secara terperinci berdasarkan model resapan bersyarat dan model resapan pra-terlatih.
Kaedah di atas tertumpu terutamanya pada sintesis berbilang modal dan penyuntingan imej 2D. Dengan perkembangan pesat Medan Sinaran Neural (NeRF) baru-baru ini, sintesis pelbagai mod dan penyuntingan untuk persepsi 3D juga telah menarik lebih banyak perhatian. Sintesis dan penyuntingan multimodal untuk persepsi 3D adalah tugas yang lebih mencabar kerana keperluan untuk mempertimbangkan konsistensi berbilang paparan. Kertas kerja ini mengklasifikasikan dan meringkaskan kerja sedia ada pada tiga kaedah pengoptimuman satu adegan NeRF, NeRF generatif dan penyongsangan NeRF.
Seterusnya, ulasan ini membandingkan dan membincangkan empat kaedah model di atas. Secara keseluruhannya, model terkini yang terkini lebih suka model autoregresif dan resapan berbanding GAN. Aplikasi NeRF dalam tugas sintesis dan penyuntingan pelbagai mod membuka tetingkap baharu untuk penyelidikan dalam bidang ini.
Dalam Bab 4, ulasan ini menyatukan data popular dalam bidang sintesis multimodal dan Set penyuntingan dan anotasi modal yang sepadan disediakan, dan kaedah semasa dibandingkan secara kuantitatif untuk tugas biasa setiap modaliti (sintesis imej semantik, sintesis teks ke imej dan penyuntingan imej berpandukan suara).
Dalam Bab 5, semakan membincangkan dan menganalisis cabaran semasa dan hala tuju masa depan dalam bidang ini, termasuk set data berbilang mod berskala besar, penunjuk penilaian yang tepat dan boleh dipercayai , seni bina rangkaian yang cekap , dan hala tuju pembangunan persepsi 3D.
Dalam Bab 6 dan 7, semakan menghuraikan potensi kesan sosial bidang ini dan masing-masing meringkaskan kandungan dan sumbangan artikel tersebut.
Atas ialah kandungan terperinci Sintesis dan penyuntingan imej multimodal sangat popular sehingga Institut Max Planck, Institut Teknologi Nanyang dan lain-lain telah menerbitkan ulasan terperinci. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!