Jadual Kandungan
Pengenalan Kaedah
Paparan kesan
Rumah Peranti teknologi AI Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Apr 12, 2023 pm 03:46 PM
ai Model

Baru-baru ini, model teks-ke-imej telah menjadi hala tuju penyelidikan yang popular sama ada landskap semula jadi yang besar atau imej adegan baru, ia mungkin dijana secara automatik menggunakan huraian teks ringkas.

Antaranya, menjadikan adegan liar dan khayalan ialah tugas mencabar yang memerlukan contoh gubahan tema tertentu (objek, haiwan, dll.) dalam adegan baharu supaya ia kelihatan semula jadi Bercantum dengan lancar tempat kejadian.

Sesetengah model teks-ke-imej berskala besar mencapai sintesis imej yang berkualiti tinggi dan pelbagai berdasarkan gesaan teks yang ditulis dalam bahasa semula jadi. Kelebihan utama model ini ialah keutamaan semantik yang kukuh yang dipelajari daripada sebilangan besar pasangan penerangan teks imej, seperti mengaitkan perkataan "anjing" dengan pelbagai contoh anjing yang boleh muncul dalam pose yang berbeza dalam imej.

Walaupun keupayaan sintesis model ini tidak pernah berlaku sebelum ini, mereka tidak mempunyai keupayaan untuk meniru subjek rujukan yang diberikan dan mensintesis imej baharu dengan subjek yang sama tetapi kejadian berbeza dalam adegan berbeza. Dapat dilihat bahawa keupayaan ekspresi domain keluaran model sedia ada adalah terhad.

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Untuk menyelesaikan masalah ini, penyelidik dari Google dan Universiti Boston mencadangkan model resapan teks-ke-imej yang "diperibadikan" DreamBooth menyesuaikan diri dengan keperluan penjanaan imej khusus pengguna.

Alamat kertas: https://arxiv.org/pdf/2208.12242.pdf

Projek Alamat: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

Matlamat penyelidikan ini adalah untuk memperluaskan bahasa model - kamus visual, supaya ia boleh menggabungkan perbendaharaan kata baharu Ikat pada tema khusus yang ingin dihasilkan oleh pengguna. Setelah kamus baharu dibenamkan ke dalam model, ia boleh menggunakan perkataan ini untuk mensintesis imej novel dan realistik bagi topik tertentu sambil mengkontekstualisasikannya dalam adegan yang berbeza, mengekalkan ciri pengenalpastian utama, seperti yang ditunjukkan dalam Rajah 1 di bawah.

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Secara khusus, kajian ini menanamkan imej subjek tertentu ke dalam domain output model supaya ia boleh disintesis menggunakan pengecam unik . Untuk tujuan ini, kajian mencadangkan kaedah untuk mewakili topik tertentu dengan pengecam token yang jarang ditemui dan memperhalusi rangka kerja teks-ke-imej berasaskan resapan yang beroperasi dalam dua langkah yang menghasilkan resolusi rendah daripada imej teks , dan kemudian gunakan model resapan resolusi super (SR).

Pertama, kajian memperhalusi model teks-ke-imej resolusi rendah menggunakan imej input dan pembayang teks yang mengandungi pengecam unik (dengan nama kelas subjek, seperti "A [V ] anjing") ). Untuk mengelakkan model daripada memasang semula nama kelas kepada kejadian tertentu dan hanyut semantik, kajian ini mencadangkan kehilangan pemeliharaan terdahulu khusus kelas yang dijana sendiri, yang mengeksploitasi semantik kelas terdahulu yang tertanam dalam model untuk menggalakkan model Menjana contoh yang berbeza kelas yang sama di bawah topik yang diberikan.

Dalam langkah kedua, kajian menggunakan versi resolusi rendah dan resolusi tinggi imej input untuk memperhalusi komponen resolusi super. Ini membolehkan model mengekalkan kesetiaan yang tinggi kepada butiran kecil tetapi penting dalam subjek adegan.

Mari kita lihat kaedah khusus yang dicadangkan dalam kajian ini.

Pengenalan Kaedah

Memandangkan 3-5 imej yang ditangkap tanpa penerangan teks, kertas kerja ini bertujuan untuk menjana imej dengan ketepatan terperinci yang tinggi dan gesaan melalui teks Imej baharu untuk membimbing perubahan. Kajian ini tidak mengenakan sebarang sekatan pada imej input, dan imej subjek boleh mempunyai konteks yang berbeza. Kaedah ditunjukkan dalam Rajah 3. Imej keluaran boleh mengubah suai imej asal, seperti kedudukan subjek, menukar sifat subjek seperti warna, bentuk, dan mengubah suai postur, ekspresi, bahan dan pengubahsuaian semantik subjek yang lain.

Secara lebih khusus, kaedah kami mengambil sebagai input beberapa imej (biasanya 3 - 5 imej) subjek (cth., anjing tertentu) dan nama kelas yang sepadan (cth., kategori anjing), dan Mengembalikan denda- model teks-ke-imej yang ditala/diperibadikan yang mengekod pengecam unik yang merujuk subjek. Kemudian, semasa penaakulan, pengecam unik boleh dibenamkan dalam ayat yang berbeza untuk mensintesis topik dalam konteks yang berbeza.

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Tugas pertama penyelidikan adalah untuk menanamkan kejadian topik ke dalam domain output model dan mengikat topik dengan pengecam unik. Kajian ini mencadangkan kaedah untuk mereka bentuk pengecam, selain mereka bentuk kaedah baharu untuk menyelia proses penalaan halus model.

Bagi menyelesaikan masalah overfitting imej dan hanyutan bahasa, kajian ini juga mencadangkan kerugian (Prior-Preservation Loss) dengan menggalakkan model difusi untuk terus menjana kelas yang sama dengan subjek Contoh yang berbeza, sekali gus mengurangkan masalah seperti model lampau pemasangan dan hanyutan bahasa.

Untuk mengekalkan butiran imej, kajian mendapati bahawa komponen super-resolusi (SR) model harus diperhalusi Artikel ini disiapkan berdasarkan pra -model Imagen terlatih. Proses khusus ditunjukkan dalam Rajah 4. Memandangkan 3-5 imej subjek yang sama, model resapan teks ke imej kemudiannya diperhalusi dalam dua langkah:

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Pengecam token jarang mewakili subjek

Kajian ini menandakan semua imej input subjek sebagai "a [pengecam] [kata nama kelas] ", dengan [ pengecam] ialah pengecam unik yang dipautkan kepada topik, manakala [kata nama kelas] ialah deskriptor kelas kasar topik (cth. kucing, anjing, jam tangan, dll.). Kajian ini secara khusus menggunakan deskriptor kelas dalam ayat untuk mengaitkan prior kelas dengan topik.

Paparan kesan

Berikut ialah pelaksanaan resapan stabil Dreambooth (rujuk pautan projek). Keputusan kualitatif: Imej latihan adalah daripada perpustakaan "Penyongsangan Teks":

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Selepas latihan selesai, dengan gesaan "foto seorang bekas sks", model dijana Foto bekas adalah seperti berikut:

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Tambah lokasi "foto bekas sks di pantai" dalam gesaan, dan bekas akan muncul di pantai;

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Bekas hijau terlalu ringkas dalam warna. Jika anda ingin menambah sedikit warna merah, masukkan gesaan "foto bekas sks merah" untuk menyelesaikannya:

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Masukkan gesaan "anjing di atas bekas sks" untuk buat anak anjing itu duduk di dalam kotak:

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Berikut ialah beberapa keputusan yang dibentangkan dalam kertas. Hasilkan gambar artistik tentang anjing dalam gaya artis yang berbeza:

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Kajian ini juga boleh mensintesis pelbagai ungkapan yang tidak muncul dalam imej input, menunjukkan keupayaan ekstrapolasi model:

Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.

Untuk butiran lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Dengan hanya 3 sampel dan satu ayat, AI boleh menyesuaikan imej foto-realistik Google sedang bermain dengan model penyebaran yang sangat baharu.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kedudukan terbaru dari Pertukaran Aplikasi Mata Wang Sepuluh Maya di Bulatan Mata Wang 2025 Kedudukan terbaru dari Pertukaran Aplikasi Mata Wang Sepuluh Maya di Bulatan Mata Wang 2025 Mar 27, 2025 pm 07:27 PM

Sepuluh aplikasi perdagangan mata wang maya di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Bitget, 8. HTX, 9. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Ringkasan Sepuluh Aplikasi Aplikasi Pertukaran Mata Wang Maya Digital Teratas pada tahun 2025 Ringkasan Sepuluh Aplikasi Aplikasi Pertukaran Mata Wang Maya Digital Teratas pada tahun 2025 Mar 27, 2025 pm 07:18 PM

Sepuluh aplikasi perdagangan mata wang maya digital di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Pertukaran yang menerbitkan berita PI Pertukaran yang menerbitkan berita PI Mar 28, 2025 pm 03:33 PM

Rangkaian PI belum melancarkan perdagangan secara rasmi di bursa arus perdana. Sehingga 2024, PI masih berada di peringkat menutup rangkaian utama, dan hanya beberapa pertukaran kecil dan sederhana yang memberikan urus niaga IOU. Pegawai tidak membenarkan sebarang urus niaga. Adalah disyorkan untuk saya melalui saluran rasmi dan menunggu rangkaian utama membuka dan berdagang di bursa yang mematuhi.

TOP10 Platform Pertukaran Mata Wang Maya Selamat dan Mudah Digunakan TOP10 Platform Pertukaran Mata Wang Maya Selamat dan Mudah Digunakan Mar 27, 2025 pm 07:06 PM

Sepuluh aplikasi perdagangan mata wang maya di 2025 adalah seperti berikut: 1. Okx, 2. Binance, 3. Gate.io, 4. Bybit, 5. Kraken, 6. Kucoin, 7. Bitget, 8. HTX, 9. Kedudukan ini berdasarkan penilaian komprehensif seperti keselamatan, kecairan, pengalaman pengguna dan kekayaan ciri.

Pertukaran mana yang menyokong HECO Pertukaran mana yang menyokong HECO Mar 28, 2025 pm 03:36 PM

Sehingga 2024, pertukaran utama yang masih menyokong rantaian HECO atau token HECO: 1. HTX (dahulunya Huobi Huobi), secara rasmi menyokong rantaian HECO USDT dan perdagangan token; 2. MDEX, berdasarkan HECO DEX, menyokong perdagangan token rantaian HECO; 3. Gate.io, menyokong penambahan dan penarikan beberapa token rantai HECO; 4. Kucoin, beberapa token rantai HECO masih boleh didagangkan; 5. Pertukaran yang terdesentralisasi seperti Pancakeswap dan UniSwap, perlu transaksi rantaian silang, memberi perhatian kepada kecairan yang rendah rantaian HECO dan penghijrahan projek.

Bagaimana untuk menyelesaikan masalah antara muka pihak ketiga yang kembali 403 dalam persekitaran Node.js? Bagaimana untuk menyelesaikan masalah antara muka pihak ketiga yang kembali 403 dalam persekitaran Node.js? Mar 31, 2025 pm 11:27 PM

Selesaikan masalah antara muka pihak ketiga yang kembali 403 dalam persekitaran Node.js. Apabila kita menggunakan Node.js untuk memanggil antara muka pihak ketiga, kita kadang-kadang menghadapi kesilapan 403 dari antara muka yang kembali 403 ...

Di Laravel, bagaimana menangani situasi di mana kod pengesahan gagal dihantar melalui e -mel? Di Laravel, bagaimana menangani situasi di mana kod pengesahan gagal dihantar melalui e -mel? Mar 31, 2025 pm 11:48 PM

Kaedah mengendalikan kegagalan e -mel Laravel untuk menghantar kod pengesahan adalah menggunakan Laravel ...

Bagaimana cara menetapkan kebenaran secara automatik UnixSocket selepas sistem dimulakan semula? Bagaimana cara menetapkan kebenaran secara automatik UnixSocket selepas sistem dimulakan semula? Mar 31, 2025 pm 11:54 PM

Bagaimana untuk menetapkan keizinan UnixSocket secara automatik selepas sistem dimulakan semula. Setiap kali sistem dimulakan semula, kita perlu melaksanakan perintah berikut untuk mengubahsuai keizinan UnixSocket: sudo ...

See all articles