Jadual Kandungan
Gambaran Keseluruhan Kaedah
Hasil eksperimen
Kesimpulan
Rumah Peranti teknologi AI Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Apr 14, 2023 pm 08:28 PM
Google Penyelidikan

Pengiktirafan dan penjanaan adalah dua tugas teras dalam bidang kecerdasan buatan Jika ia boleh digabungkan menjadi sistem bersatu, kedua-dua tugas ini harus saling melengkapi. Malah, dalam pemprosesan bahasa semula jadi, model seperti BERT [1] bukan sahaja mampu menghasilkan teks berkualiti tinggi tetapi juga mengekstrak ciri daripada teks.

Walau bagaimanapun, dalam bidang penglihatan komputer, model penjanaan imej semasa dan model pengecaman kebanyakannya dilatih secara berasingan, tanpa menggunakan sepenuhnya sinergi kedua-dua tugas ini. Ini disebabkan terutamanya oleh fakta bahawa model penjanaan imej dan pengecaman imej biasanya mempunyai perbezaan struktur yang penting: input penjanaan imej adalah ciri atau hingar berdimensi rendah, dan outputnya ialah imej asal berdimensi tinggi; input pengecaman imej adalah imej asal berdimensi tinggi, manakala output adalah ciri berdimensi rendah.

Baru-baru ini, penyelidik dari MIT dan Google Research mencadangkan kaedah pembelajaran perwakilan berdasarkan penyamaran semantik imej, mencapai penjanaan dan perwakilan imej dalam rangka kerja bersatu buat kali pertama mempelajari dan mencapai prestasi SOTA pada beberapa set data. Kertas penyelidikan telah diterima oleh CVPR 2023, dan kod yang berkaitan serta model pra-latihan telah menjadi sumber terbuka.

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

  • Alamat kertas: https://arxiv.org/abs/2211.09117
  • Alamat kod: https://github.com/LTH14/mage

di CVPR 2022 Pada, MAE [2] mencadangkan kaedah pembelajaran perwakilan berdasarkan topeng imej (MIM) dan mencapai keputusan yang sangat baik pada berbilang subtugas. Pada kadar penyamaran sehingga 75%, MAE boleh membina semula imej yang hampir sepadan dengan semantik imej asal, dengan itu membenarkan rangkaian mempelajari ciri-ciri dalam imej dengan seliaan sendiri. Walau bagaimanapun, seperti yang ditunjukkan dalam Rajah 1, walaupun imej yang dibina semula oleh MAE mempunyai maklumat semantik yang serupa dengan imej asal, masalah kabur dan herotan yang serius berlaku. Isu yang sama timbul dalam semua kaedah pembelajaran perwakilan berasaskan MIM. Pada masa yang sama, model generatif semasa, sama ada model resapan atau GAN, tidak mempunyai keupayaan untuk mengekstrak ciri imej berkualiti tinggi.

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Rajah 1: Perbandingan pembinaan semula MAE dan MAGE

Gambaran Keseluruhan Kaedah

Sebagai tindak balas kepada masalah di atas, penulis artikel ini mencadangkan MAGE (Masked Generative Encoder), yang buat pertama kalinya merealisasikan penjanaan dan ciri imej bersatu model pengekstrakan. Berbeza daripada kaedah penyamaran di mana MIM bertindak terus pada imej, MAGE mencadangkan kaedah pemodelan token imej bertopeng berdasarkan simbol semantik imej. Seperti yang ditunjukkan dalam rajah, MAGE mula-mula menggunakan pengekod VQGAN [3] untuk menukar imej asal kepada simbol semantik diskret. Selepas itu, MAGE menutupnya secara rawak dan menggunakan struktur penyahkod pengekod berasaskan transformer untuk membina semula topeng Simbol semantik yang dibina semula boleh digunakan untuk menjana imej asal melalui penyahkod VQGAN. Dengan menggunakan kadar masking yang berbeza dalam latihan, MAGE boleh melatih kedua-dua model generatif (kadar masking hampir 100%) dan pembelajaran representasi (kadar masking 50%-80%). Seperti yang ditunjukkan dalam Rajah 1, imej yang dibina semula oleh MAGE bukan sahaja mempunyai maklumat semantik yang konsisten dengan imej asal, tetapi juga boleh memastikan kepelbagaian dan ketulenan imej yang dihasilkan pada masa yang sama.

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion


Rajah 2: Rajah struktur MAGE

Hasil eksperimen

MAGE telah mencapai atau melebihi SOTA dalam berbilang penjanaan imej dan tugas pengecaman imej.

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Dalam tugas penjanaan imej tanpa pengawasan ImageNet, FID MAGE menurun daripada sebelumnya > 20 kepada 7.04, malah mencapai tahap penjanaan imej diselia (FID Resapan Laten diselia pada ImageNet ialah 3.60) :

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Gambar 3: Contoh penjanaan imej tanpa pengawasan MAGE

MAGE juga boleh melaksanakan pelbagai tugas penyuntingan imej, termasuk mengecat imej, mengecat luar dan menyahcrop:

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Rajah 4: Sampel penyuntingan imej MAGE

dalam Dari segi pembelajaran perwakilan , MAGE telah bertambah baik berbanding kaedah MIM semasa dalam tugasan seperti penyelidikan linear ImageNet, pembelajaran beberapa pukulan dan pembelajaran pemindahan, dan boleh mencapai atau melebihi tahap kaedah pembelajaran penyeliaan kendiri optimum semasa.

Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion

Kesimpulan

Kertas kerja ini bertujuan untuk menyatukan pembelajaran penjanaan imej dan perwakilan. Untuk tujuan ini, pengarang artikel ini mencadangkan MAGE, rangka kerja pembelajaran yang diselia sendiri berdasarkan topeng simbol semantik imej. Rangka kerja ini mudah dan cekap, dan buat pertama kalinya mencapai atau melebihi prestasi SOTA dalam kedua-dua penjanaan imej dan pembelajaran perwakilan. Pembaca yang berminat boleh melihat teks asal kertas untuk mengetahui lebih banyak butiran penyelidikan.

Atas ialah kandungan terperinci Google dan MIT mencadangkan rangka kerja bersatu MAGE: pembelajaran perwakilan mengatasi MAE, dan penjanaan imej tanpa seliaan mengatasi Latent Diffusion. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Mengulas DeepSeek Cara Mengulas DeepSeek Feb 19, 2025 pm 05:42 PM

DeepSeek adalah alat pengambilan maklumat yang kuat. .

Cara Mencari DeepSeek Cara Mencari DeepSeek Feb 19, 2025 pm 05:39 PM

DeepSeek adalah enjin carian proprietari yang hanya mencari dalam pangkalan data atau sistem tertentu, lebih cepat dan lebih tepat. Apabila menggunakannya, pengguna dinasihatkan untuk membaca dokumen itu, cuba strategi carian yang berbeza, dapatkan bantuan dan maklum balas mengenai pengalaman pengguna untuk memanfaatkan kelebihan mereka.

Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Feb 28, 2025 am 11:06 AM

Artikel ini memperkenalkan proses pendaftaran versi web Web Open Exchange (GATE.IO) dan aplikasi Perdagangan Gate secara terperinci. Sama ada pendaftaran web atau pendaftaran aplikasi, anda perlu melawat laman web rasmi atau App Store untuk memuat turun aplikasi tulen, kemudian isi nama pengguna, kata laluan, e -mel, nombor telefon bimbit dan maklumat lain, dan lengkap e -mel atau pengesahan telefon bimbit.

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Feb 21, 2025 pm 10:57 PM

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Bybit adalah pertukaran cryptocurrency yang menyediakan perkhidmatan perdagangan kepada pengguna. Aplikasi mudah alih Exchange tidak boleh dimuat turun terus melalui AppStore atau GooglePlay untuk sebab -sebab berikut: 1. Aplikasi pertukaran cryptocurrency sering tidak memenuhi keperluan ini kerana ia melibatkan perkhidmatan kewangan dan memerlukan peraturan dan standard keselamatan tertentu. 2. Undang -undang dan Peraturan Pematuhan di banyak negara, aktiviti yang berkaitan dengan urus niaga cryptocurrency dikawal atau terhad. Untuk mematuhi peraturan ini, aplikasi bybit hanya boleh digunakan melalui laman web rasmi atau saluran yang diberi kuasa lain

Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Feb 28, 2025 am 10:51 AM

Adalah penting untuk memilih saluran rasmi untuk memuat turun aplikasi dan memastikan keselamatan akaun anda.

Top 10 Disyorkan untuk App Perdagangan Aset Digital Crypto (2025 Global Ranking) Top 10 Disyorkan untuk App Perdagangan Aset Digital Crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Artikel ini mencadangkan sepuluh platform perdagangan cryptocurrency teratas yang memberi perhatian kepada, termasuk Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI dan Xbit yang desentralisasi. Platform ini mempunyai kelebihan mereka sendiri dari segi kuantiti mata wang transaksi, jenis urus niaga, keselamatan, pematuhan, dan ciri khas. Memilih platform yang sesuai memerlukan pertimbangan yang komprehensif berdasarkan pengalaman perdagangan anda sendiri, toleransi risiko dan keutamaan pelaburan. Semoga artikel ini membantu anda mencari saman terbaik untuk diri sendiri

Portal Log Masuk Versi Rasmi Binance Binance Portal Log Masuk Versi Rasmi Binance Binance Feb 21, 2025 pm 05:42 PM

Untuk mengakses versi Login Laman Web Binance yang terkini, ikuti langkah mudah ini. Pergi ke laman web rasmi dan klik butang "Login" di sudut kanan atas. Pilih kaedah log masuk anda yang sedia ada. Masukkan nombor mudah alih berdaftar atau e -mel dan kata laluan anda dan pengesahan lengkap (seperti kod pengesahan mudah alih atau Google Authenticator). Selepas pengesahan yang berjaya, anda boleh mengakses Portal Log masuk laman web rasmi Binance.

Alamat muat turun terbaru Bitget pada tahun 2025: Langkah -langkah untuk mendapatkan aplikasi rasmi Alamat muat turun terbaru Bitget pada tahun 2025: Langkah -langkah untuk mendapatkan aplikasi rasmi Feb 25, 2025 pm 02:54 PM

Panduan ini menyediakan langkah muat turun dan pemasangan terperinci untuk aplikasi Bitget Exchange rasmi, sesuai untuk sistem Android dan iOS. Panduan ini mengintegrasikan maklumat dari pelbagai sumber yang berwibawa, termasuk laman web rasmi, App Store, dan Google Play, dan menekankan pertimbangan semasa muat turun dan pengurusan akaun. Pengguna boleh memuat turun aplikasinya dari saluran rasmi, termasuk App Store, muat turun APK laman web rasmi dan melompat laman web rasmi, dan lengkap pendaftaran, pengesahan identiti dan tetapan keselamatan. Di samping itu, panduan itu merangkumi soalan dan pertimbangan yang sering ditanya, seperti

See all articles