


Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.
Baru-baru ini, model teks-ke-imej telah menjadi hala tuju penyelidikan yang popular sama ada landskap semula jadi yang besar atau imej adegan baru, ia mungkin dijana secara automatik menggunakan huraian teks ringkas.
Antaranya, menjadikan adegan liar dan khayalan ialah tugas mencabar yang memerlukan contoh gubahan tema tertentu (objek, haiwan, dll.) dalam adegan baharu supaya ia kelihatan semula jadi Bercantum dengan lancar tempat kejadian.
Sesetengah model teks-ke-imej berskala besar mencapai sintesis imej yang berkualiti tinggi dan pelbagai berdasarkan gesaan teks yang ditulis dalam bahasa semula jadi. Kelebihan utama model ini ialah keutamaan semantik yang kukuh yang dipelajari daripada sebilangan besar pasangan penerangan teks imej, seperti mengaitkan perkataan "anjing" dengan pelbagai contoh anjing yang boleh muncul dalam pose yang berbeza dalam imej.
Walaupun keupayaan sintesis model ini tidak pernah berlaku sebelum ini, mereka tidak mempunyai keupayaan untuk meniru subjek rujukan yang diberikan dan mensintesis imej baharu dengan subjek yang sama tetapi kejadian berbeza dalam adegan berbeza. Dapat dilihat bahawa keupayaan ekspresi domain keluaran model sedia ada adalah terhad.
Untuk menyelesaikan masalah ini, penyelidik dari Google dan Universiti Boston mencadangkan model resapan teks-ke-imej yang "diperibadikan" DreamBooth menyesuaikan diri dengan keperluan penjanaan imej khusus pengguna.
Alamat kertas: https://arxiv.org/pdf/2208.12242.pdf
Projek Alamat: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion
Matlamat penyelidikan ini adalah untuk memperluaskan bahasa model - kamus visual, supaya ia boleh menggabungkan perbendaharaan kata baharu Ikat pada tema khusus yang ingin dihasilkan oleh pengguna. Setelah kamus baharu dibenamkan ke dalam model, ia boleh menggunakan perkataan ini untuk mensintesis imej novel dan realistik bagi topik tertentu sambil mengkontekstualisasikannya dalam adegan yang berbeza, mengekalkan ciri pengenalpastian utama, seperti yang ditunjukkan dalam Rajah 1 di bawah.
Secara khusus, kajian ini menanamkan imej subjek tertentu ke dalam domain output model supaya ia boleh disintesis menggunakan pengecam unik . Untuk tujuan ini, kajian mencadangkan kaedah untuk mewakili topik tertentu dengan pengecam token yang jarang ditemui dan memperhalusi rangka kerja teks-ke-imej berasaskan resapan yang beroperasi dalam dua langkah yang menghasilkan resolusi rendah daripada imej teks , dan kemudian gunakan model resapan resolusi super (SR).
Pertama, kajian memperhalusi model teks-ke-imej resolusi rendah menggunakan imej input dan pembayang teks yang mengandungi pengecam unik (dengan nama kelas subjek, seperti "A [V ] anjing") ). Untuk mengelakkan model daripada memasang semula nama kelas kepada kejadian tertentu dan hanyut semantik, kajian ini mencadangkan kehilangan pemeliharaan terdahulu khusus kelas yang dijana sendiri, yang mengeksploitasi semantik kelas terdahulu yang tertanam dalam model untuk menggalakkan model Menjana contoh yang berbeza kelas yang sama di bawah topik yang diberikan.
Dalam langkah kedua, kajian menggunakan versi resolusi rendah dan resolusi tinggi imej input untuk memperhalusi komponen resolusi super. Ini membolehkan model mengekalkan kesetiaan yang tinggi kepada butiran kecil tetapi penting dalam subjek adegan.
Mari kita lihat kaedah khusus yang dicadangkan dalam kajian ini.
Pengenalan Kaedah
Memandangkan 3-5 imej yang ditangkap tanpa penerangan teks, kertas kerja ini bertujuan untuk menjana imej dengan ketepatan terperinci yang tinggi dan gesaan melalui teks Imej baharu untuk membimbing perubahan. Kajian ini tidak mengenakan sebarang sekatan pada imej input, dan imej subjek boleh mempunyai konteks yang berbeza. Kaedah ditunjukkan dalam Rajah 3. Imej keluaran boleh mengubah suai imej asal, seperti kedudukan subjek, menukar sifat subjek seperti warna, bentuk, dan mengubah suai postur, ekspresi, bahan dan pengubahsuaian semantik subjek yang lain.
Secara lebih khusus, kaedah kami mengambil sebagai input beberapa imej (biasanya 3 - 5 imej) subjek (cth., anjing tertentu) dan nama kelas yang sepadan (cth., kategori anjing), dan Mengembalikan denda- model teks-ke-imej yang ditala/diperibadikan yang mengekod pengecam unik yang merujuk subjek. Kemudian, semasa penaakulan, pengecam unik boleh dibenamkan dalam ayat yang berbeza untuk mensintesis topik dalam konteks yang berbeza.
Tugas pertama penyelidikan adalah untuk menanamkan kejadian topik ke dalam domain output model dan mengikat topik dengan pengecam unik. Kajian ini mencadangkan kaedah untuk mereka bentuk pengecam, selain mereka bentuk kaedah baharu untuk menyelia proses penalaan halus model.
Bagi menyelesaikan masalah overfitting imej dan hanyutan bahasa, kajian ini juga mencadangkan kerugian (Prior-Preservation Loss) dengan menggalakkan model difusi untuk terus menjana kelas yang sama dengan subjek Contoh yang berbeza, sekali gus mengurangkan masalah seperti model lampau pemasangan dan hanyutan bahasa.
Untuk mengekalkan butiran imej, kajian mendapati bahawa komponen super-resolusi (SR) model harus diperhalusi Artikel ini disiapkan berdasarkan pra -model Imagen terlatih. Proses khusus ditunjukkan dalam Rajah 4. Memandangkan 3-5 imej subjek yang sama, model resapan teks ke imej kemudiannya diperhalusi dalam dua langkah:
Pengecam token jarang mewakili subjek
Kajian ini menandakan semua imej input subjek sebagai "a [pengecam] [kata nama kelas] ", dengan [ pengecam] ialah pengecam unik yang dipautkan kepada topik, manakala [kata nama kelas] ialah deskriptor kelas kasar topik (cth. kucing, anjing, jam tangan, dll.). Kajian ini secara khusus menggunakan deskriptor kelas dalam ayat untuk mengaitkan prior kelas dengan topik.
Paparan kesan
Berikut ialah pelaksanaan resapan stabil Dreambooth (rujuk pautan projek). Keputusan kualitatif: Imej latihan adalah daripada perpustakaan "Penyongsangan Teks":
Selepas latihan selesai, dengan gesaan "foto seorang bekas sks", model dijana Foto bekas adalah seperti berikut:
Tambah lokasi "foto bekas sks di pantai" dalam gesaan, dan bekas akan muncul di pantai;
Bekas hijau terlalu ringkas dalam warna. Jika anda ingin menambah sedikit warna merah, masukkan gesaan "foto bekas sks merah" untuk menyelesaikannya:
Masukkan gesaan "anjing di atas bekas sks" untuk buat anak anjing itu duduk di dalam kotak:
Berikut ialah beberapa keputusan yang dibentangkan dalam kertas. Hasilkan gambar artistik tentang anjing dalam gaya artis yang berbeza:
Kajian ini juga boleh mensintesis pelbagai ungkapan yang tidak muncul dalam imej input, menunjukkan keupayaan ekstrapolasi model:
Untuk butiran lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Perintah untuk memulakan semula perkhidmatan SSH ialah: Sistem Restart SSHD. Langkah -langkah terperinci: 1. Akses terminal dan sambungkan ke pelayan; 2. Masukkan arahan: SistemCtl Restart SSHD; 3. Sahkan Status Perkhidmatan: Status Sistem SSHD.

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat
