Jadual Kandungan
Seperti yang ditunjukkan dalam Rajah 5, kaedah mereka boleh memastikan kualiti penjanaan imej dan struktur yang konsisten dalam setiap model pra-latihan dan pada resolusi yang berbeza. . FouriScale dianalisis daripada domain kekerapan dan menambah baik struktur dan ketekalan skala pada resolusi berbeza melalui lilitan atrous dan operasi penapisan laluan rendah, menyelesaikan cabaran utama seperti corak berulang dan herotan struktur. Mengguna pakai strategi "isi kemudian potong" dan menggunakan FouriScale sebagai panduan meningkatkan fleksibiliti dan kualiti penjanaan teks kepada imej sambil menyesuaikan diri dengan nisbah aspek yang berbeza. Perbandingan eksperimen kuantitatif dan kualitatif menunjukkan bahawa FouriScale boleh memastikan kualiti penjanaan imej yang lebih tinggi di bawah model pra-latihan yang berbeza dan resolusi yang berbeza.
Rumah Peranti teknologi AI Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Apr 08, 2024 pm 04:52 PM
ai kereta api

Baru-baru ini, model resapan telah mengatasi model GAN ​​dan autoregresif dan menjadi pilihan arus perdana untuk model generatif kerana prestasi cemerlangnya. Model penjanaan teks-ke-imej berasaskan model resapan seperti SD, SDXL, Midjourney dan Imagen telah menunjukkan keupayaan yang menakjubkan untuk menjana imej berkualiti tinggi. Biasanya, model ini dilatih pada resolusi khusus untuk memastikan pemprosesan yang cekap dan latihan model yang tepat pada perkakasan sedia ada.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Rajah 1: Perbandingan menggunakan kaedah berbeza untuk menjana imej 2048×2048 di bawah SDXL 1.0. [1]

Dalam model penyebaran ini, pertindihan corak dan artifak teruk sering berlaku. Sebagai contoh, ia ditunjukkan di sebelah kiri paling kiri Rajah 1. Masalah ini amat akut di luar penyelesaian latihan.

Penyelidik dari institusi seperti Makmal Bersama Teknologi SenseTime Universiti China Hong Kong menjalankan kajian mendalam tentang lapisan konvolusi struktur UNet yang biasa digunakan dalam model resapan dalam kertas kerja, dan mencadangkan FouriScale dari perspektif kekerapan analisis domain seperti yang ditunjukkan dalam gambar 2.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Rajah 2 Diagram skematik proses FouriScale (garis oren), yang bertujuan untuk memastikan ketekalan merentas resolusi.

Dengan memperkenalkan operasi konvolusi diluaskan dan operasi penapisan laluan rendah untuk menggantikan lapisan konvolusi asal dalam model penyebaran terlatih, struktur dan ketekalan skala pada resolusi berbeza boleh dicapai. Digabungkan dengan strategi "isi kemudian potong", kaedah ini secara fleksibel boleh menjana imej yang memenuhi saiz dan nisbah bidang yang berbeza. Tambahan pula, dengan FouriScale sebagai panduan, kaedah ini mampu menjamin struktur imej yang lengkap dan kualiti imej yang sangat baik apabila menjana imej resolusi tinggi dalam sebarang saiz. FouriScale tidak memerlukan sebarang pengiraan ramalan luar talian dan mempunyai keserasian dan kebolehskalaan yang baik.

Keputusan percubaan kuantitatif dan kualitatif menunjukkan bahawa FouriScale mencapai peningkatan ketara dalam menjana imej resolusi tinggi menggunakan model resapan terlatih. .

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Tajuk kertas: FouriScale: Perspektif Kekerapan tentang Sintesis Imej Resolusi Tinggi Tanpa Latihan

  • Pengenalan kaedah
  • ketekalan struktur1
  • The rangkaian denoising model resapan biasanya dilatih pada imej atau ruang terpendam resolusi tertentu Rangkaian ini biasanya menggunakan struktur U-Net. Penulis bertujuan untuk menggunakan parameter rangkaian denoising semasa peringkat inferens untuk menjana imej resolusi lebih tinggi tanpa memerlukan latihan semula. Untuk mengelakkan herotan struktur pada resolusi inferens, penulis cuba mewujudkan konsistensi struktur antara lalai dan resolusi tinggi. Untuk lapisan konvolusi dalam U-Net, ketekalan struktur boleh dinyatakan sebagai:

di mana k ialah isirong lilitan asal dan k' ialah isirong lilitan baharu yang disesuaikan untuk peleraian yang lebih besar. Mengikut perwakilan domain kekerapan pensampelan spatial, ia adalah seperti berikut:

Formula (3) boleh ditulis sebagai:

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.Formula ini menunjukkan spektrum konvolusi ideal Fourier. k' harus Ia disambungkan oleh spektrum Fourier bagi isirong lilitan s×s k. Dalam erti kata lain, spektrum Fourier k' sepatutnya mempunyai pengulangan berkala, dan corak berulang ini ialah spektrum Fourier k.

Konvolusi atrous yang digunakan secara meluas hanya memenuhi keperluan ini. Kekerapan domain berkala lilitan atrous boleh dinyatakan dengan formula berikut:

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Apabila menggunakan model resapan terlatih (resolusi latihan ialah (h,w)) untuk menjana imej resolusi tinggi bagi (H,W), parameter lilitan atrous menggunakan isirong lilitan asal, dan faktor pengembangan ialah ( H/j, W/w), ialah isirung lilitan ideal k'.

2. Penapisan laluan rendah memastikan ketekalan skala merentas resolusi

Walau bagaimanapun, hanya menggunakan lilitan atrous tidak dapat menyelesaikan masalah dengan sempurna, seperti yang ditunjukkan di sudut kiri atas Rajah 3, hanya menggunakan lilitan atrous. masih corak pengulangan dalam butiran. Penulis percaya bahawa ini adalah kerana fenomena aliasing frekuensi bagi pensampelan bawah ruang mengubah komponen domain frekuensi, mengakibatkan perbezaan dalam taburan domain frekuensi pada resolusi yang berbeza. Untuk memastikan ketekalan skala merentas resolusi, mereka memperkenalkan penapisan laluan rendah untuk menapis komponen frekuensi tinggi untuk mengalih keluar masalah pengaliasan frekuensi selepas pensampelan rendah spatial. Seperti yang dapat dilihat dari lengkung perbandingan di sebelah kanan Rajah 3, selepas menggunakan penapisan laluan rendah, taburan frekuensi pada resolusi tinggi dan rendah adalah lebih dekat, sekali gus memastikan skala yang konsisten. Seperti yang dapat dilihat dari sudut kiri bawah Rajah 3, selepas menggunakan penapisan laluan rendah, fenomena pengulangan corak butiran telah bertambah baik dengan ketara.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Rajah 3 (a) Perbandingan visual sama ada penapisan laluan rendah digunakan. (b) Lengkung amplitud logaritma relatif Fourier tanpa penapisan laluan rendah. (c) Lengkung amplitud logaritma relatif Fourier dengan penapisan laluan rendah.

3. boleh disesuaikan dengan mana-mana saiz Untuk penjanaan imej, pengarang menggunakan kaedah "isi dan kemudian potong" Kaedah 1 menunjukkan kod pseudo FouriScale yang menggabungkan strategi ini Operasi domain frekuensi dalam FouriScale tidak dapat tidak menyebabkan kehilangan butiran dan artifak yang tidak diingini dalam yang dihasilkan. imej. Bagi menyelesaikan masalah ini, seperti yang ditunjukkan dalam Rajah 4, penulis mencadangkan FouriScale sebagai kaedah panduan. Secara khusus, berdasarkan anggaran penjanaan bersyarat asal dan anggaran penjanaan tanpa syarat, mereka memperkenalkan anggaran penjanaan bersyarat tambahan. Proses penjanaan anggaran penjanaan bersyarat tambahan ini juga menggunakan lilitan atrous, tetapi menggunakan penapisan laluan rendah yang lebih lembut untuk memastikan butiran tidak hilang. Pada masa yang sama, mereka akan menggunakan skor perhatian dalam output anggaran penjanaan bersyarat oleh FouriScale untuk menggantikan skor perhatian dalam anggaran penjanaan bersyarat tambahan ini Memandangkan skor perhatian mengandungi maklumat struktur dalam imej yang dijana, operasi ini akan betul maklumat struktur diperkenalkan sambil memastikan kualiti imej.

Rajah 4 (a) Rajah but FouriScale. (b) Imej yang dijana tanpa menggunakan FouriScale sebagai panduan mempunyai artifak yang jelas dan ralat terperinci. (c) Imej yang dihasilkan menggunakan FouriScale sebagai panduan. . menghasilkan Empat imej resolusi lebih tinggi. Resolusi yang diuji ialah 4x, 6.25x, 8x dan 16x bilangan piksel resolusi latihan masing-masing. Keputusan pensampelan rawak 30000/10000 pasangan teks imej pada Laion-5B ditunjukkan dalam Jadual 1:

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Jadual 1 Perbandingan hasil kuantitatif kaedah bebas latihan yang berbeza

lebih baik dalam setiap Model pra-latihan mencapai hasil yang optimum pada resolusi yang berbeza.

2. Keputusan ujian kualitatifTanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Seperti yang ditunjukkan dalam Rajah 5, kaedah mereka boleh memastikan kualiti penjanaan imej dan struktur yang konsisten dalam setiap model pra-latihan dan pada resolusi yang berbeza. . FouriScale dianalisis daripada domain kekerapan dan menambah baik struktur dan ketekalan skala pada resolusi berbeza melalui lilitan atrous dan operasi penapisan laluan rendah, menyelesaikan cabaran utama seperti corak berulang dan herotan struktur. Mengguna pakai strategi "isi kemudian potong" dan menggunakan FouriScale sebagai panduan meningkatkan fleksibiliti dan kualiti penjanaan teks kepada imej sambil menyesuaikan diri dengan nisbah aspek yang berbeza. Perbandingan eksperimen kuantitatif dan kualitatif menunjukkan bahawa FouriScale boleh memastikan kualiti penjanaan imej yang lebih tinggi di bawah model pra-latihan yang berbeza dan resolusi yang berbeza.

Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.

Atas ialah kandungan terperinci Tanpa latihan, kaedah baharu ini mencapai kebebasan dalam menjana saiz dan resolusi imej.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Baris arahan shutdown centos Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Apakah kaedah sandaran untuk gitlab di centos Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Cara Memeriksa Konfigurasi HDFS CentOS Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Bagaimana sokongan GPU untuk Pytorch di CentOS Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Penjelasan terperinci mengenai Prinsip Docker Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

CentOS memasang MySQL CentOS memasang MySQL Apr 14, 2025 pm 08:09 PM

Memasang MySQL pada CentOS melibatkan langkah -langkah berikut: Menambah sumber MySQL YUM yang sesuai. Jalankan YUM Pasang Perintah MySQL-Server untuk memasang pelayan MySQL. Gunakan perintah mysql_secure_installation untuk membuat tetapan keselamatan, seperti menetapkan kata laluan pengguna root. Sesuaikan fail konfigurasi MySQL seperti yang diperlukan. Tune parameter MySQL dan mengoptimumkan pangkalan data untuk prestasi.

CentOS8 memulakan semula SSH CentOS8 memulakan semula SSH Apr 14, 2025 pm 09:00 PM

Perintah untuk memulakan semula perkhidmatan SSH ialah: Sistem Restart SSHD. Langkah -langkah terperinci: 1. Akses terminal dan sambungkan ke pelayan; 2. Masukkan arahan: SistemCtl Restart SSHD; 3. Sahkan Status Perkhidmatan: Status Sistem SSHD.

Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Cara Mengendalikan Latihan Pittorch Diagihkan di Centos Apr 14, 2025 pm 06:36 PM

Latihan yang diedarkan Pytorch pada sistem CentOS memerlukan langkah -langkah berikut: Pemasangan Pytorch: Premisnya ialah Python dan PIP dipasang dalam sistem CentOS. Bergantung pada versi CUDA anda, dapatkan arahan pemasangan yang sesuai dari laman web rasmi Pytorch. Untuk latihan CPU sahaja, anda boleh menggunakan arahan berikut: PipinstallToRchTorchVisionTorchaudio Jika anda memerlukan sokongan GPU, pastikan versi CUDA dan CUDNN yang sama dipasang dan gunakan versi pytorch yang sepadan untuk pemasangan. Konfigurasi Alam Sekitar Teragih: Latihan yang diedarkan biasanya memerlukan pelbagai mesin atau mesin berbilang mesin tunggal. Tempat

See all articles