Rumah > Peranti teknologi > AI > teks badan

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

WBOY
Lepaskan: 2023-04-12 15:40:06
ke hadapan
1609 orang telah melayarinya

Dengan kemunculan model imej teks berskala besar, menghasilkan imej yang menarik menjadi sangat mudah. ​​Apa yang perlu dilakukan oleh pengguna ialah memasukkan gesaan mudah dengan pergerakan jari mereka. Selepas mendapatkan imej melalui beberapa siri operasi, kami pasti akan mempunyai beberapa soalan: Bolehkah imej yang dijana berdasarkan segera memenuhi keperluan kami? Apakah jenis seni bina yang perlu kita bina untuk mengendalikan pelbagai keperluan yang dibangkitkan oleh pengguna? Bolehkah model besar mengekalkan kelebihan dan keupayaan yang diperoleh daripada berbilion imej dalam tugas tertentu?

Untuk menjawab soalan-soalan ini, penyelidik dari Stanford menjalankan sejumlah besar penyiasatan ke atas pelbagai aplikasi pemprosesan imej dan mencapai tiga penemuan berikut:

Pertama sekali, data yang tersedia dalam medan tertentu sebenarnya kurang daripada data untuk melatih model umum Ini terutamanya ditunjukkan dalam fakta bahawa sebagai contoh, set data terbesar pada masalah tertentu (seperti pemahaman isyarat,. dsb.) biasanya kurang daripada 100k, yang lebih kecil daripada skala besar, Set data imej teks berbilang mod LAION 5B ialah 5 × 10^4 tertib magnitud lebih kecil. Ini memerlukan rangkaian saraf menjadi teguh untuk mengelakkan model terlampau pasang dan mempunyai generalisasi yang baik apabila menyasarkan masalah khusus.

Kedua, apabila menggunakan pemprosesan dipacu data bagi tugas imej, gugusan pengkomputeran yang besar tidak selalu tersedia. Di sinilah kaedah latihan pantas menjadi penting, kaedah yang boleh mengoptimumkan model besar untuk tugasan tertentu dalam masa dan ruang ingatan yang boleh diterima. Tambahan pula, penalaan halus, pembelajaran pemindahan dan operasi lain mungkin diperlukan dalam pemprosesan seterusnya.

Akhir sekali, pelbagai masalah yang dihadapi semasa pemprosesan imej akan ditakrifkan dengan cara yang berbeza. Apabila menyelesaikan masalah ini, walaupun algoritma penyebaran imej boleh dilaraskan dengan cara "prosedur", contohnya, mengekang proses denoising, mengedit pengaktifan perhatian berbilang kepala, dll., peraturan buatan tangan ini pada dasarnya ditentukan oleh arahan manusia , Memandangkan beberapa tugas khusus seperti imej kedalaman, pose-orang, dsb., masalah ini pada asasnya memerlukan tafsiran input mentah ke dalam pemahaman peringkat objek atau peringkat pemandangan, yang menjadikan pendekatan prosedur buatan tangan kurang sesuai. Oleh itu, untuk menyediakan penyelesaian dalam pelbagai tugas, pembelajaran hujung ke hujung adalah penting.

Berdasarkan penemuan di atas, kertas kerja ini mencadangkan seni bina rangkaian saraf hujung ke hujung ControlNet, yang boleh mengawal model resapan (seperti Resapan Stabil) dengan menambahkan syarat tambahan, dengan itu menambah baik graf kesan gambar, dan boleh menjana gambar berwarna penuh daripada lukisan garisan, menjana gambar dengan struktur kedalaman yang sama, dan mengoptimumkan penjanaan tangan melalui titik utama tangan.

Alamat kertas: https://arxiv.org/pdf/2302.05543.pdf

Projek Alamat: https://github.com/lllyasviel/ControlNet

Paparan kesan

Jadi apakah kesan ControlNet?

Pengesanan tepi canny: Dengan mengekstrak lukisan garisan daripada imej asal, anda boleh menjana imej dengan komposisi yang sama.

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

Pengesanan kedalaman: Dengan mengekstrak maklumat kedalaman dalam imej asal, graf dengan struktur kedalaman yang sama boleh dihasilkan .

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

ControlNet dengan segmentasi semantik:

Menggunakan The deep berasaskan pembelajaran Transformasi Hough mengesan garis lurus dari Places2 dan kemudian menggunakan BLIP untuk menjana sari kata.

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

Ikon pengesanan tepi HED.

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

Ilustrasi pengecaman postur manusia.

Pengenalan kaedah

ControlNet ialah seni bina rangkaian saraf yang mempertingkatkan model resapan imej terlatih dengan keadaan khusus tugas. Mari kita lihat struktur asas ControlNet.

ControlNet memanipulasi keadaan input blok rangkaian saraf, seterusnya mengawal kelakuan keseluruhan keseluruhan rangkaian saraf. Di sini "blok rangkaian" merujuk kepada sekumpulan lapisan saraf yang disatukan sebagai unit biasa untuk membina rangkaian saraf, seperti blok resnet, blok perhatian berbilang kepala dan blok Transformer.

Ambil ciri 2D sebagai contoh, diberikan peta ciri x ϵ R^h×w×c, dengan {h, w, c} ialah ketinggian, lebar dan bilangan saluran masing-masing. Blok rangkaian saraf F (・; Θ) dengan set parameter Θ mengubah x menjadi peta ciri y yang lain seperti ditunjukkan dalam persamaan (1) di bawah.

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

Proses ini ditunjukkan dalam Rajah 2-(a) di bawah.

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

Blok rangkaian saraf disambungkan oleh lapisan lilitan unik yang dipanggil "sifar lilitan", iaitu berat 1×1 lapisan konvolusi dengan permulaan sifar dan berat sebelah. Penyelidik mewakili operasi lilitan sifar sebagai Z (・;・) dan menggunakan dua contoh parameter {Θ_z1, Θ_z2} untuk membentuk struktur ControlNet, seperti yang ditunjukkan dalam formula berikut (2).

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

di mana y_c menjadi output bagi blok rangkaian saraf, seperti ditunjukkan dalam Rajah 2-(b) di bawah.

ControlNet dalam model penyebaran imej

Penyelidik mengambil Stable Diffusion sebagai contoh untuk memperkenalkan cara menggunakan kawalan ControlNet Model penyebaran berskala besar dengan keadaan khusus tugas. Stable Diffusion ialah model resapan teks-ke-imej berskala besar yang dilatih pada berbilion-bilion imej, pada asasnya U-net yang terdiri daripada pengekod, blok perantaraan dan penyahkod bersambung baki.

Seperti yang ditunjukkan dalam Rajah 3 di bawah, penyelidik menggunakan ControlNet untuk mengawal setiap lapisan U-net. Ambil perhatian bahawa cara ControlNet disambungkan di sini adalah cekap dari segi pengiraan: memandangkan pemberat asal dikunci, pengiraan kecerunan pada pengekod asal tidak memerlukan latihan. Dan kerana separuh daripada pengiraan kecerunan pada model asal dikurangkan, latihan boleh dipercepatkan dan memori GPU boleh disimpan. Melatih model Stable Diffusion menggunakan ControlNet hanya memerlukan lebih kurang 23% lebih memori GPU dan 34% lebih masa setiap lelaran latihan (diuji pada satu Nvidia A100 PCIE 40G).

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

Khususnya, penyelidik menggunakan ControlNet untuk mencipta 12 blok pengekodan boleh dilatih dan 1 salinan blok perantaraan Stable Diffusion. 12 blok pengekodan datang dalam 4 resolusi, 64×64, 32×32, 16×16, dan 8×8, dengan 3 blok dalam setiap resolusi. Output ditambah pada U-net dengan 12 sambungan baki dan 1 blok perantaraan. Memandangkan Stable Diffusion ialah struktur U-net biasa, kemungkinan seni bina ControlNet ini boleh digunakan dalam model resapan lain.

Latihan dan Meningkatkan Latihan

Memandangkan imej z_0, algoritma resapan menambah hingar pada imej secara berperingkat dan menghasilkan hingar Imej z_t, t ialah bilangan kali hingar ditambah. Apabila t cukup besar, imej menghampiri hingar tulen. Memandangkan satu set syarat termasuk langkah masa t, gesaan teks c_t, dan keadaan khusus tugas c_f, algoritma resapan imej mempelajari rangkaian ϵ_θ untuk meramalkan hingar yang ditambahkan pada imej bising z_t, seperti ditunjukkan dalam Persamaan (10) di bawah.

Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya

Semasa proses latihan, penyelidik secara rawak menggantikan 50% gesaan teks c_t dengan rentetan kosong, yang bermanfaat kepada keupayaan ControlNet untuk mengenal pasti kandungan semantik daripada peta keadaan input.

Selain itu, penyelidik juga membincangkan beberapa strategi untuk meningkatkan latihan ControlNets, terutamanya apabila peranti pengkomputeran sangat terhad (seperti komputer riba) atau sangat berkuasa (seperti dengan GPU berskala besar yang tersedia. ).

Sila rujuk kertas asal untuk butiran lanjut teknikal.

Atas ialah kandungan terperinci Pengurangan dimensi AI menyerang pelukis manusia, graf Vincentian diperkenalkan ke ControlNet, dan maklumat kedalaman dan tepi boleh digunakan semula sepenuhnya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan