Jadual Kandungan
Pengubah Resapan
Eksperimen
Rumah Peranti teknologi AI Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Apr 22, 2023 pm 04:10 PM
ai Model

Dalam beberapa tahun kebelakangan ini, didorong oleh Transformer, pembelajaran mesin sedang mengalami kebangkitan. Sepanjang lima tahun yang lalu, seni bina saraf untuk pemprosesan bahasa semula jadi, penglihatan komputer dan bidang lain sebahagian besarnya telah didominasi oleh transformer.

Walau bagaimanapun, terdapat banyak model generatif peringkat imej yang kekal tidak terjejas oleh aliran ini, contohnya, model penyebaran telah mencapai hasil yang menakjubkan dalam penjanaan imej pada tahun lalu model Gunakan U-Net konvolusi sebagai tulang belakang. Ini agak mengejutkan! Kisah besar dalam pembelajaran mendalam sejak beberapa tahun lalu ialah penguasaan Transformer merentasi bidang. Adakah terdapat sesuatu yang istimewa tentang U-Net atau konvolusi yang menjadikan mereka berprestasi begitu baik dalam model resapan?

Penyelidikan yang mula-mula memperkenalkan rangkaian tulang belakang U-Net ke dalam model penyebaran boleh dikesan kembali kepada Ho et al Corak reka bentuk ini mewarisi model generatif autoregresif PixelCNN++ dengan hanya sedikit perubahan. PixelCNN++ terdiri daripada lapisan konvolusi, yang mengandungi banyak blok ResNet. Berbanding dengan U-Net standard, blok perhatian kendiri spatial tambahan PixelCNN++ menjadi komponen asas dalam pengubah. Tidak seperti kerja orang lain, Dhariwal dan Nichol et al menghapuskan beberapa pilihan seni bina untuk U-Net, seperti menggunakan lapisan normalisasi penyesuaian untuk menyuntik maklumat keadaan dan kiraan saluran ke dalam lapisan konvolusi.

Dalam artikel ini, William Peebles dari UC Berkeley dan Xie Senin dari Universiti New York menulis "Model Resapan Boleh Skala dengan Transformer." Matlamatnya adalah untuk mendedahkan kepentingan pilihan seni bina dalam model penyebaran dan menyediakan panduan untuk kajian model Generatif masa hadapan menyediakan garis dasar empirikal. Kajian ini menunjukkan bahawa bias induktif U-Net tidak kritikal kepada prestasi model resapan dan boleh digantikan dengan mudah dengan reka bentuk standard seperti transformer.

Penemuan ini menunjukkan bahawa model resapan boleh mendapat manfaat daripada trend penyatuan seni bina Contohnya, model resapan boleh mewarisi amalan terbaik dan kaedah latihan daripada bidang lain, mengekalkan kebolehskalaan model ini dan kecekapan. Seni bina piawai juga akan membuka kemungkinan baharu untuk penyelidikan merentas domain.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

  • Alamat kertas: https://arxiv.org/pdf/2212.09748.pdf
  • Alamat projek: https://github.com/facebookresearch/DiT
  • Halaman utama kertas: https:// www.wpeebles.com/DiT

Penyelidikan ini memfokuskan kepada kelas baharu model resapan berasaskan Transformer: Diffusion Transformers (pendek kata DiT). DiT mengikuti amalan terbaik Pengubah Penglihatan (ViT), dengan beberapa tweak kecil tetapi penting. DiT telah ditunjukkan untuk berskala lebih cekap daripada rangkaian konvolusi tradisional seperti ResNet.

Secara khusus, artikel ini mengkaji gelagat penskalaan Transformer dari segi kerumitan rangkaian dan kualiti sampel. Kajian menunjukkan bahawa dengan membina dan menanda aras ruang reka bentuk DiT di bawah rangka kerja model resapan terpendam (LDM), di mana model resapan dilatih dalam ruang terpendam VAE, adalah mungkin untuk berjaya menggantikan tulang belakang U-Net dengan pengubah. Makalah ini selanjutnya menunjukkan bahawa DiT ialah seni bina berskala untuk model penyebaran: terdapat korelasi yang kuat antara kerumitan rangkaian (diukur oleh Gflops) dan kualiti sampel (diukur oleh FID). Dengan hanya memperluaskan DiT dan melatih LDM dengan tulang belakang berkapasiti tinggi (118.6 Gflops), hasil terkini 2.27 FID dicapai pada penanda aras penjanaan ImageNet 256 × 256 bersyarat kelas.

Pengubah Resapan

DiTs ialah seni bina baharu untuk model resapan yang bertujuan untuk setia kepada seni bina pengubah standard yang mungkin untuk mengekalkan kebolehskalaannya. DiT mengekalkan banyak amalan terbaik ViT, dan Rajah 3 menunjukkan seni bina DiT yang lengkap.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Input kepada DiT ialah perwakilan spatial z (untuk imej 256 × 256 × 3, bentuk z ialah 32 × 32 × 4 ). Lapisan pertama DiT ialah tampalan, yang menukarkan input spatial ke dalam urutan token T dengan membenamkan setiap tampalan secara linear ke dalam input. Selepas menampal, kami menggunakan benam kedudukan berasaskan frekuensi ViT standard pada semua token input.

Bilangan token T yang dicipta oleh patchify ditentukan oleh hiperparameter saiz patch p. Seperti yang ditunjukkan dalam Rajah 4, membahagi p empat kali ganda T dan oleh itu sekurang-kurangnya empat kali ganda Gflop pengubah. Artikel ini menambah p = 2,4,8 pada ruang reka bentuk DiT.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Reka bentuk blok DiT: Selepas tampalan, token input diproses oleh satu siri blok pengubah. Selain input imej bising, model resapan kadangkala mengendalikan maklumat bersyarat tambahan, seperti langkah masa bunyi t, label kelas c, bahasa semula jadi, dsb. Artikel ini meneroka empat variasi blok pengubah yang mengendalikan input bersyarat dengan cara yang berbeza. Reka bentuk ini menampilkan pengubahsuaian kecil tetapi ketara pada reka bentuk blok ViT standard. Reka bentuk semua modul ditunjukkan dalam Rajah 3.

Artikel ini mencuba empat konfigurasi yang berbeza mengikut kedalaman dan lebar model: DiT-S, DiT-B, DiT-L dan DiT-XL. Konfigurasi model ini terdiri daripada parameter 33M hingga 675M dan Gflops dari 0.4 hingga 119.

Eksperimen

Para penyelidik melatih empat model DiT-XL/2 dengan Gflop tertinggi, setiap satu menggunakan reka bentuk blok yang berbeza - dalam konteks (119.4 Gflops), silang -perhatian (137.6Gflops), norma lapisan penyesuaian (adaLN, 118.6Gflops) atau adaLN-sifar (118.6Gflops). FID kemudiannya diukur semasa latihan, dan Rajah 5 menunjukkan keputusan.

Kembangkan saiz model dan saiz tampalan. Rajah 2 (kiri) memberikan gambaran keseluruhan Gflops untuk setiap model dan FID mereka pada lelaran latihan 400K. Ia boleh dilihat bahawa meningkatkan saiz model dan mengurangkan saiz tampalan menghasilkan peningkatan yang ketara dalam model penyebaran.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Rajah 6 (atas) menunjukkan bagaimana FID berubah apabila saiz model bertambah dan saiz tampalan dikekalkan tetap. Merentasi empat tetapan, peningkatan ketara dalam FID diperoleh pada semua peringkat latihan dengan menjadikan Transformer lebih mendalam dan lebih luas. Begitu juga, Rajah 6 (bawah) menunjukkan FID apabila saiz tampalan dikurangkan dan saiz model kekal malar. Para penyelidik sekali lagi memerhatikan bahawa FID bertambah baik dengan hanya mengembangkan bilangan token yang diproses oleh DiT dan mengekalkan parameter secara kasarnya tetap sepanjang proses latihan.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Rajah 8 menunjukkan perbandingan antara FID-50K dan model Gflops pada langkah latihan 400K:

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Model penyebaran SOTA 256×256 ImageNet. Selepas analisis lanjutan, penyelidik terus melatih model Gflop tertinggi, DiT-XL/2, dengan kiraan langkah 7M. Rajah 1 menunjukkan sampel model ini dan membandingkannya dengan model SOTA generasi bersyarat kategori, dan keputusan ditunjukkan dalam Jadual 2.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Apabila tidak menggunakan panduan pengelas, DiT-XL/2 mengatasi semua model resapan sebelumnya, mengatasi 3.60 yang dicapai sebelum ini oleh LDM Best FID-50K menurun hingga 2.27. Seperti yang ditunjukkan dalam Rajah 2 (kanan), berbanding model U-Net ruang terpendam seperti LDM-4 (103.6 Gflops), DiT-XL/2 (118.6 Gflops) jauh lebih cekap dari segi pengiraan daripada ADM (1120 Gflops ) atau ADM-U (742 Gflops), model U-Net ruang piksel jauh lebih cekap.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Jadual 3 menunjukkan perbandingan dengan pendekatan SOTA. XL/2 sekali lagi mengatasi semua model resapan sebelumnya pada resolusi ini, meningkatkan FID terbaik ADM sebelum ini iaitu 3.85 kepada 3.04.

Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi

Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.

Atas ialah kandungan terperinci Daripada U-Net ke DiT: Aplikasi Teknologi Transformer dalam Model Resapan Dominasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

GO SLISE SLICE: Mengapa ia tidak melaporkan kesilapan apabila indeks kepingan tunggal 1 memintas? GO SLISE SLICE: Mengapa ia tidak melaporkan kesilapan apabila indeks kepingan tunggal 1 memintas? Apr 02, 2025 pm 02:24 PM

GO LANGUAGE SLISE INDEX: Mengapa kepingan tunggal elemen memintas dari Indeks 1 tanpa ralat? Dalam bahasa Go, kepingan adalah struktur data yang fleksibel yang boleh merujuk kepada bahagian bawah ...

Kenapa perlu lulus petunjuk apabila menggunakan perpustakaan Go dan Viper? Kenapa perlu lulus petunjuk apabila menggunakan perpustakaan Go dan Viper? Apr 02, 2025 pm 04:00 PM

GO Pointer Syntax dan menangani masalah dalam penggunaan perpustakaan Viper semasa pengaturcaraan dalam bahasa Go, adalah penting untuk memahami sintaks dan penggunaan petunjuk, terutama dalam ...

Kenapa semua nilai menjadi elemen terakhir apabila menggunakan bahasa dalam bahasa Go untuk melintasi kepingan dan menyimpan peta? Kenapa semua nilai menjadi elemen terakhir apabila menggunakan bahasa dalam bahasa Go untuk melintasi kepingan dan menyimpan peta? Apr 02, 2025 pm 04:09 PM

Mengapa lelaran peta di GO menyebabkan semua nilai menjadi elemen terakhir? Dalam bahasa Go, ketika berhadapan dengan beberapa soalan wawancara, anda sering menemui peta ...

Adakah terdapat XML percuma untuk alat PDF untuk telefon bimbit? Adakah terdapat XML percuma untuk alat PDF untuk telefon bimbit? Apr 02, 2025 pm 09:12 PM

Tidak ada XML percuma yang mudah dan langsung ke alat PDF di mudah alih. Proses visualisasi data yang diperlukan melibatkan pemahaman dan rendering data yang kompleks, dan kebanyakan alat yang dipanggil "percuma" di pasaran mempunyai pengalaman yang buruk. Adalah disyorkan untuk menggunakan alat sampingan komputer atau menggunakan perkhidmatan awan, atau membangunkan aplikasi sendiri untuk mendapatkan kesan penukaran yang lebih dipercayai.

Bagaimana untuk membezakan antara mod debug dan mod operasi biasa apabila program Go sedang berjalan? Bagaimana untuk membezakan antara mod debug dan mod operasi biasa apabila program Go sedang berjalan? Apr 02, 2025 pm 01:45 PM

Apabila program bahasa Go berjalan, bagaimana membezakan antara mod debug dan mod operasi biasa? Ramai pemaju ingin membangunkan program GO mengikut mod operasi yang berbeza ...

GO LANGUAGE SLISE INDEX: Kenapa tidak pemintasan kepingan tunggal elemen melampaui batas? GO LANGUAGE SLISE INDEX: Kenapa tidak pemintasan kepingan tunggal elemen melampaui batas? Apr 02, 2025 pm 02:36 PM

Meneroka Masalah Sempadan Sempadan GO Slicing Index: Slice Single-Element memintas dalam GO, kepingan adalah struktur data yang fleksibel yang boleh digunakan untuk tatasusunan atau lain-lain ...

Bagaimana untuk mengimport pakej tersuai dengan betul di bawah modul GO? Bagaimana untuk mengimport pakej tersuai dengan betul di bawah modul GO? Apr 02, 2025 pm 03:42 PM

Dalam pembangunan bahasa Go, dengan betul memperkenalkan pakej tersuai adalah langkah penting. Artikel ini akan menyasarkan "Golang ...

See all articles