


Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.
Dengan keluaran DALL-E 2 oleh OpenAI, model autoregresif dan resapan telah menjadi standard baharu untuk model generatif berskala besar semalaman, Generative Adversarial Networks (GAN) telah menjadi pilihan arus perdana dan diperoleh daripada StyleGAN dan teknologi lain.
Di sebalik populariti AIGC, dari sudut teknikal, seni bina model penjanaan imej telah mengalami perubahan yang besar.
Dengan keluaran DALL-E 2 oleh OpenAI, model autoregresif dan resapan telah menjadi standard baharu untuk model generatif berskala besar semalaman telah Mereka semua adalah pilihan arus perdana dan telah memperoleh teknologi seperti StyleGAN.
Peralihan seni bina daripada GAN kepada model penyebaran juga menimbulkan persoalan: bolehkah skala model GAN ditingkatkan? , sebagai contoh, bolehkah kami meningkatkan lagi prestasi dalam set data besar seperti LAION?
Baru-baru ini, penyelidik dari Universiti Sains dan Teknologi Pohang (Korea Selatan), Carnegie Mellon University, dan Adobe Research membangkitkan isu ketidakstabilan yang disebabkan oleh peningkatan kapasiti seni bina StyleGAN seni bina rangkaian permusuhan generatif baharu, GigaGAN, mematahkan had saiz model dan menunjukkan bahawa GAN masih boleh kompeten sebagai model sintesis teks ke imej.
Pautan kertas: https://arxiv.org/abs/2303.05511
Pautan projek: https://mingukkang. github.io/GigaGAN/
GigaGAN mempunyai tiga kelebihan utama.
1. Ia lebih pantas semasa inferens Berbanding dengan Stable Diffusion-v1.5 dengan tahap parameter yang sama, kelajuan penjanaan pada resolusi 512 dipendekkan daripada 2.9 saat kepada 0.13 saat. .
2. Imej resolusi tinggi boleh disintesis, contohnya, imej 16 megapiksel boleh disintesis dalam 3.66 detik.
3. Menyokong pelbagai aplikasi penyuntingan ruang terpendam, seperti interpolasi pendam, pencampuran gaya dan operasi aritmetik vektor.
Satu siri model yang dikeluarkan baru-baru ini, seperti DALL-E 2, Imagen, Parti dan Stable Diffusion, telah memulakan era baharu penjanaan imej, mencapai tahap kualiti imej dan fleksibiliti model yang belum pernah terjadi sebelumnya.
Paradigma yang dominan pada masa ini "model resapan" dan "model autoregresif" kedua-duanya bergantung pada pedang bermata dua penaakulan berulang, kerana kaedah lelaran boleh melakukan latihan yang stabil dengan matlamat mudah, tetapi dalam penaakulan Kos pengiraan yang lebih tinggi akan ditanggung dalam proses tersebut.
Sebaliknya, Generative Adversarial Network (GAN) hanya memerlukan satu hantaran ke hadapan untuk menjana imej, jadi ia sememangnya lebih cekap.
Walaupun model GAN mendominasi "era sebelumnya" pemodelan generatif, disebabkan ketidakstabilan dalam proses latihan, melanjutkan GAN memerlukan pelarasan yang teliti terhadap struktur rangkaian dan pertimbangan latihan, jadi walaupun GAN sangat baik dalam memodelkan kategori objek tunggal atau berbilang, menskalakan kepada set data yang kompleks (apatah lagi penjanaan objek dunia terbuka) masih mencabar.
Jadi pada masa ini model yang sangat besar, data dan sumber pengkomputeran tertumpu terutamanya pada model penyebaran dan autoregresif.
Dalam kerja ini, penyelidik terutamanya menangani soalan berikut:
Bolehkah GAN terus berkembang dan berpotensi mendapat manfaat daripada sumber ini? Atau adakah GAN sudah mencapai hadnya? Apakah yang menghalang pengembangan GAN selanjutnya? Bolehkah halangan ini diatasi?
Para penyelidik mula-mula menjalankan eksperimen dengan StyleGAN2 dan memerhatikan bahawa hanya mengembangkan rangkaian tulang belakang akan membawa kepada latihan yang tidak stabil Selepas mengenal pasti beberapa isu utama Akhirnya, teknik untuk menstabilkan latihan sambil meningkatkan kapasiti model dicadangkan.
Pertama, kembangkan kapasiti penjana secara berkesan dengan mengekalkan sekumpulan penapis dan mengambil gabungan linear sampel tertentu.
Menyesuaikan beberapa teknik yang biasa digunakan dalam konteks model penyebaran dan mengesahkan bahawa ia boleh membawa peningkatan prestasi yang serupa kepada GAN, seperti menggabungkan mekanisme perhatian diri (imej sahaja) dan Perhatian silang (teks imej) yang dijalin dengan lapisan konvolusi meningkatkan prestasi.
Selain itu, penyelidik memperkenalkan semula latihan berskala dan menemui skema baharu yang boleh meningkatkan penjajaran teks imej dan menjana butiran frekuensi rendah dalam output.
Latihan berbilang skala membolehkan penjana berasaskan GAN menggunakan parameter dalam blok resolusi rendah dengan lebih cekap, menghasilkan penjajaran teks imej dan kualiti imej yang lebih baik.
Penjana
Penjana GigaGAN terdiri daripada cawangan pengekodan teks, rangkaian pemetaan gaya dan rangkaian sintesis berbilang skala), ditambah dengan perhatian yang stabil dan pemilihan kernel adaptif.
Dalam cawangan pengekodan teks, model CLIP terlatih dan lapisan perhatian yang dipelajari T mula-mula digunakan untuk mengekstrak pembenaman teks, dan kemudian proses pembenaman dihantar ke rangkaian pemetaan gaya M, Jana vektor gaya w
serupa dengan StyleGAN Rangkaian sintesis menggunakan pengekodan gaya sebagai modulasi dan pembenaman teks sebagai perhatian . Hasilkan piramid imej, dan atas dasar ini, perkenalkan sampel algoritma pemilihan kernel adaptif untuk mencapai pemilihan adaptif kernel convolution berdasarkan keadaan teks input.
Pendiskriminasi
Sama seperti penjana, diskriminator GigaGAN terdiri daripada dua cabang, yang digunakan untuk memproses keadaan imej dan teks masing-masing.
Cawangan teks mengendalikan cawangan teks yang serupa dengan penjana; cawangan imej menerima piramid imej sebagai input dan membuat ramalan bebas untuk setiap skala imej.
Beberapa fungsi kehilangan tambahan diperkenalkan dalam formula untuk menggalakkan penumpuan pantas.
Penilaian yang sistematik dan terkawal pada tugas sintesis imej teks berskala besar adalah sukar kerana kebanyakan model sedia ada tidak tersedia secara terbuka, walaupun jika kod latihan tersedia, kos melatih model baharu dari awal akan menjadi mahal.
Para penyelidik memilih untuk membandingkan dengan Imagen, Model Resapan Terpendam (LDM), Resapan Stabil dan Parti dalam eksperimen mereka, sambil mengakui bahawa terdapat perbezaan yang ketara dalam set data latihan, nombor lelaran, saiz kelompok, dan saiz model terdapat perbezaan yang ketara.
Untuk penunjuk penilaian kuantitatif, Frechet Inception Distance (FID) digunakan terutamanya untuk mengukur ketulenan pengedaran output, dan skor CLIP digunakan untuk menilai penjajaran teks imej.
Lima eksperimen berbeza telah dijalankan dalam kertas:
1 Tunjukkan keberkesanan kaedah yang dicadangkan dengan menggabungkan setiap komponen teknikal secara beransur-ansur; . sambil menjana keputusan ratusan kali lebih pantas daripada model resapan atau autoregresif; 🎜>
4. Mengesahkan kelebihan upsampler GigaGAN berbanding upsampler lain dalam tugasan resolusi super bersyarat dan tanpa syarat;
5 Keputusan menunjukkan bahawa GAN berskala besar masih menikmati operasi ruang terpendam GAN yang berterusan dan terurai, membolehkan mod penyuntingan imej baharu.
Selepas melaraskan parameter, penyelidik mencapai kestabilan dan kebolehpercayaan pada set data berskala besar seperti Latihan LAION2B-en daripada GAN berbilion parameter lanjutan (GigaGAN).
Dan kaedah ini menggunakan pendekatan berbilang peringkat, mula-mula menjana pada 64 × 64, dan kemudian meningkatkan pensampelan kepada 512 × 512, kedua-dua rangkaian adalah modular dan cukup berkuasa untuk digunakan secara plug-and-play.
Hasilnya menunjukkan bahawa rangkaian pensampelan GAN berhawa teks boleh berfungsi sebagai pensampel tinggi yang cekap dan berkualiti tinggi untuk model resapan asas (seperti DALL-E 2) walaupun tidak pernah melihat imej model resapan semasa latihan.
Bersama-sama, keputusan ini menjadikan GigaGAN jauh mengatasi model GAN sebelumnya, 36 kali lebih besar daripada StyleGAN2, 6 kali lebih besar daripada StyleGAN-XL dan XMC-GAN.
Walaupun volum 1 bilion parameter GiGAN masih lebih rendah daripada model sintetik terbesar yang dikeluarkan baru-baru ini, seperti Imagen (3B) , DALL-E 2 (5.5B) dan Parti (20B), tetapi tiada ketepuan jisim berkenaan dengan saiz model masih belum diperhatikan.
GigaGAN mencapai FID sifar 9.09 pada set data COCO2014, yang lebih rendah daripada FID DALL-E 2, Parti-750M dan Stable Diffusion
Interpolasi segera
GigaGAN boleh menginterpolasi dengan lancar antara gesaan Empat penjuru dalam rajah di bawah dibentuk oleh penjanaan kod Terpendam yang sama , tetapi dengan gesaan teks yang berbeza.
Campuran segera terurai
GigaGAN dikhaskan Ruang pendam yang dipisahkan membolehkan penggabungan gaya kasar satu sampel dengan gaya halus sampel lain, dan GigaGAN boleh mengawal gaya secara langsung melalui pembayang teks.
Pertukaran sytle kasar ke halus
Berasaskan GAN seni bina model mengekalkan ruang terpendam yang diasingkan, membolehkan gaya kasar satu sampel dicampur dengan gaya halus sampel lain.
Rujukan:
https://mingukkang.github.io/GigaGAN/
Atas ialah kandungan terperinci Model GAN berskala ultra besar yang pertama! Kelajuan penjanaan adalah 20+ kali lebih pantas daripada Diffusion, dan imej dihasilkan dalam 0.13 saat Ia menyokong sehingga 16 juta piksel.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

1. Semak kata laluan wifi: Pastikan kata laluan wifi yang anda masukkan adalah betul dan perhatikan sensitiviti huruf besar. 2. Sahkan sama ada wifi berfungsi dengan betul: Semak sama ada penghala wifi berjalan seperti biasa Anda boleh menyambungkan peranti lain ke penghala yang sama untuk menentukan sama ada masalah terletak pada peranti. 3. Mulakan semula peranti dan penghala: Kadangkala, terdapat kerosakan atau masalah rangkaian dengan peranti atau penghala, dan memulakan semula peranti dan penghala boleh menyelesaikan masalah. 4. Semak tetapan peranti: Pastikan fungsi wayarles peranti dihidupkan dan fungsi wifi tidak dinyahdayakan.

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh
