Hanya satu gambar boleh 'memulihkan' proses mengecat Kertas ini direalisasikan lebih awal daripada Paints-UNDO yang popular-AI-php.cn

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pengenalan kepada pengarang: Song Yiren: Calon PhD di ShowLab, Universiti Nasional Singapura termasuk penjanaan imej dan video keselamatan AI.

Huang Shijie: Pelajar sarjana tahun kedua di Universiti Nasional Singapura kini bekerja sebagai jurutera algoritma di Tiamat AI. Sedang mencari kemasukan PhD untuk musim gugur 2025.

Baru-baru ini, lvmin membawakan model terbaru Paints-UNDO. Alat penjanaan AI ini boleh memulihkan keseluruhan proses mengecat berdasarkan gambar, dan seluruh komuniti AIGC terkejut. Demo Paints-UNDO.

Hanya satu gambar boleh memulihkan proses mengecat Kertas ini direalisasikan lebih awal daripada Paints-UNDO yang popular

Seawal 1 bulan yang lalu, NUS, SJTU, Tiamat dan institusi lain bersama-sama mengeluarkan karya tentang tugasan yang serupa: ProcessPainter: Belajar Proses Melukis daripada Data Jujukan. Laporan teknikal Paints-UNDO belum dikeluarkan lagi, mari kita lihat cara ProcessPainter melaksanakannya! . /nicolaus-huang/ProcessPainter

Buka mana-mana buku pengajaran lukisan dan anda akan melihat arahan langkah demi langkah untuk melukis. Walau bagaimanapun, dalam era AI generatif, penjanaan imej melalui proses denoising adalah berbeza sama sekali daripada proses lukisan seorang pelukis manusia Proses lukisan AI tidak boleh digunakan secara langsung untuk pengajaran lukisan.

Hanya satu gambar boleh memulihkan proses mengecat Kertas ini direalisasikan lebih awal daripada Paints-UNDO yang popular

1. Mekanisme Perhatian Temporal (Temporal Attention)

Menggunakan perhatian temporal untuk belajar menjana proses lukisan adalah teras inovasi ProcessPainter. Kunci untuk menghasilkan jujukan lukisan ialah keseluruhan jujukan ialah proses perubahan gambar yang sama daripada abstrak kepada konkrit, dan bingkai sebelumnya dan terkemudian adalah konsisten dan relevan dalam kandungan dan gubahan. Untuk mencapai matlamat ini, penulis memperkenalkan modul perhatian temporal daripada AnimateDiff kepada Unet. Modul ini terletak selepas setiap lapisan resapan dan menyerap maklumat daripada bingkai yang berbeza melalui mekanisme perhatian diri antara bingkai untuk memastikan peralihan yang lancar dan kesinambungan keseluruhan jujukan.

Eksperimen telah membuktikan bahawa strategi latihan ini dapat mengekalkan kesan lukisan yang konsisten antara bingkai. Perbezaan antara tugas penjanaan proses mengecat dan penjanaan video ialah perubahan sebelum dan selepas proses mengecat adalah lebih drastik Bingkai pertama ialah blok warna atau lukisan garisan dengan tahap siap yang rendah, manakala bingkai terakhir adalah lukisan lengkap , yang menimbulkan cabaran untuk memodelkan latihan. Untuk tujuan ini, pengarang kertas kerja terlebih dahulu melatih modul pemasaan pada sejumlah besar set data sintetik, membolehkan model mempelajari proses pengecatan langkah demi langkah pelbagai kaedah SBR (Stroke-based rendering), dan kemudian menggunakan data proses lukisan berpuluh-puluh artis untuk melatih Lukisan Model LoRA. . . Ini membawa kepada dua tugas: pembinaan semula dan penyiapan proses mengecat. Memandangkan kedua-dua tugasan mempunyai input imej, pengarang kertas kerja mencadangkan Rangkaian Replikasi Karya Seni.

Reka bentuk rangkaian ini boleh mengendalikan input imej bagi mana-mana bingkai dan mengawal penjanaan proses pengecatan secara fleksibel. Sama seperti kaedah penjanaan terkawal sebelumnya, pengarang kertas kerja memperkenalkan varian ControlNet untuk mengawal bingkai tertentu dalam hasil yang dijana agar konsisten dengan imej rujukan.

3. Set data sintetik dan strategi latihan

Memandangkan data proses pengecatan sebenar sukar diperoleh, jumlahnya tidak mencukupi untuk menyokong latihan berskala besar. Untuk tujuan ini, pengarang kertas membina set data sintetik untuk pra-latihan.

Tiga kaedah data sintetik digunakan secara khusus:

1 Gunakan Learn to Paint untuk menghasilkan urutan lukisan lejang Bezier lut sinar

2 dalam gaya lukisan minyak dan gaya lukisan Cina.

3. Kaedah SBR (Lukisan asas lejang) yang disebutkan di atas adalah untuk menyesuaikan imej sasaran dari kasar kepada halus, yang bermaksud bahagian yang telah dicat dibenarkan untuk ditimpa dan diubah suai, seperti Lukisan dan arca Cina, disebabkan oleh bahan Oleh kerana sekatan, bahagian yang telah siap tidak boleh diubah suai dengan ketara, dan proses mengecat selesai di kawasan yang berasingan. Untuk tujuan ini, pengarang kertas kerja menggunakan kaedah pengesanan SAM (segmen apa-apa) dan saliency untuk menambahkan kandungan dari kanvas kosong ke sub-rantau satu demi satu, mula-mula melukis objek yang menonjol, dan kemudian meresapkannya secara beransur-ansur ke latar belakang untuk mensintesis. video proses mengecat.

Dalam fasa latihan, pengarang kertas kerja terlebih dahulu melatih Model Gerakan pada set data sintetik, kemudian membekukan parameter Model Gerakan dan melatih Rangkaian Replikasi Karya Seni. Apabila memperhalusi model lukisan LoRA, langkah pertama ialah memperhalusi perhatian spatial LoRA hanya menggunakan bingkai akhir untuk mengelakkan set latihan mengecat separuh siap daripada menjejaskan kualiti penjanaan model.

Selepas itu, pengarang kertas kerja membekukan parameter perhatian spatial LoRA dan memperhalusi perhatian temporal LoRA menggunakan urutan lukisan yang lengkap. Semasa fasa inferens, apabila menjana jujukan lukisan daripada teks, ProcessPainter tidak menggunakan rangkaian replikasi karya seni. Dalam tugas pembinaan semula proses lukisan dan penyiapan, ProcessPainter menggunakan rangkaian replikasi karya seni untuk menerima input rujukan khusus bingkai. Untuk memastikan bahawa bingkai dalam jujukan lukisan yang dijana sepadan dengan imej input sedekat mungkin, ProcessPainter menggunakan teknik penyongsangan DDIM untuk mendapatkan hingar awal imej rujukan dan menggantikan hingar awal bingkai khusus dalam UNet.

Paparan kesan ProcessPainter

Model asas ProcessPainter yang dilatih pada set data sintetik boleh menjana urutan lukisan dengan perbezaan gaya dalam proses.

Dengan melatih Motion Lora secara individu pada urutan lukisan sebilangan kecil pelukis manusia, ProcessPainter boleh mempelajari proses lukisan dan gaya artis tertentu.

Tentukan imej rujukan, dan ProcessPainter boleh menyahbina secara terbalik karya seni yang telah siap kepada langkah-langkah lukisan, atau menyimpulkan lukisan lengkap daripada produk separuh siap.

Gabungan komponen teknikal ini membolehkan ProcessPainter bukan sahaja menjana proses lukisan daripada teks, tetapi juga menukar imej rujukan kepada urutan lukisan atau melengkapkan lukisan yang belum siap. Ini sudah pasti menyediakan alatan baharu untuk pendidikan seni, dan juga membuka laluan baharu untuk komuniti AIGC. Mungkin dalam masa terdekat, akan ada pelbagai Lora di Civitai yang mensimulasikan proses lukisan pelukis manusia.

Untuk butiran lanjut, sila baca kertas asal atau lawati halaman utama projek Github.

Atas ialah kandungan terperinci Hanya satu gambar boleh 'memulihkan' proses mengecat Kertas ini direalisasikan lebih awal daripada Paints-UNDO yang popular. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!