Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini-AI-php.cn

Rumah

Peranti teknologi

Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini

王林

Mar 11, 2024 pm 01:07 PM

industri

Model ini menggunakan rangka kerja DiT seperti Sora.

Seperti yang kita semua tahu, membangunkan model T2I peringkat atas memerlukan banyak sumber, jadi pada asasnya mustahil untuk penyelidik individu yang mempunyai sumber terhad untuk membelinya. Ini juga telah menjadi AIGC (Kandungan Kecerdasan Buatan Generasi) komuniti Penghalang utama kepada inovasi. Pada masa yang sama, seiring dengan berlalunya masa, komuniti AIGC akan dapat memperoleh set data yang sentiasa dikemas kini, berkualiti tinggi dan algoritma yang lebih maju.

Jadi inilah persoalan utama: Bagaimanakah kita boleh menyepadukan elemen baharu ini dengan cekap ke dalam model sedia ada dan menjadikan model itu lebih berkuasa dengan sumber yang terhad?

Untuk meneroka masalah ini, pasukan penyelidik dari institusi penyelidikan seperti Makmal Bahtera Nuh Huawei mencadangkan kaedah latihan baharu: latihan lemah kepada kuat.

Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini

Tajuk kertas: PixArt-Σ: Latihan Transformer Resapan Lemah-ke-Kuat untuk Penjanaan Teks-ke-Imej 4K

Alamat kertas: https://arxiv.org/pdf/2403.04692.pdf

Projek

Halaman: https://pixart-alpha.github.io/PixArt-sigma-project/

Penyelidikan mereka adalah berdasarkan PixArt-α, kaedah latihan leksikografi cekap yang mereka cadangkan pada Oktober lalu, sila rujuk laman web ini Laporan "PixArt, model graf berasaskan teks kos latihan yang sangat rendah, ada di sini, dengan hasil yang setanding dengan MJ dan hanya memerlukan masa latihan SD 10%". PixArt-α ialah percubaan awal pada rangka kerja DiT (Diffusion Transformer). Kini, dengan Sora pada carian hangat dan Stable Diffusion muncul dalam aplikasi yang tidak berkesudahan, keberkesanan seni bina DiT telah disahkan oleh semakin banyak kerja dalam komuniti penyelidikan, seperti PixArt, Dit-3D, GenTron, dll. [1] .

Pasukan menggunakan model asas terlatih PixArt-α dan elemen lanjutan bersepadu untuk mempromosikan peningkatan berterusannya, akhirnya menghasilkan model PixArt-Σ yang lebih berkuasa. Rajah 1 menunjukkan beberapa contoh hasil yang dijana.

Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini

PixArt-Σ Bagaimana cara membuatnya?

Khususnya, untuk mencapai latihan yang lemah kepada yang kuat dan mencipta PixArt-Σ, pasukan ini telah menggunakan langkah penambahbaikan berikut. . mengandungi 33 juta imej resolusi tinggi daripada Internet, semuanya melebihi resolusi 1K, termasuk 2.3 juta imej pada resolusi lebih kurang 4K. Ciri utama imej ini ialah estetikanya yang tinggi dan meliputi pelbagai gaya artistik.

(2) Penerangan padat dan tepat: Untuk memberikan penerangan yang lebih tepat dan terperinci untuk imej di atas, pasukan menggantikan LLaVA yang digunakan dalam PixArt-α dengan deskriptor imej yang lebih berkuasa, Share-Captioner .

Bukan itu sahaja, untuk meningkatkan keupayaan model untuk menyelaraskan konsep teks dan konsep visual, pasukan memanjangkan panjang token pengekod teks (iaitu Flan-T5) kepada kira-kira 300 perkataan. Mereka mendapati bahawa penambahbaikan ini berkesan menghapuskan kecenderungan model untuk berhalusinasi, membolehkan penjajaran imej teks yang berkualiti tinggi.

Jadual 1 di bawah menunjukkan statistik set data yang berbeza.

Mampatan token yang cekap

Untuk meningkatkan PixArt-α, pasukan itu meningkatkan resolusi penjanaannya daripada 1K kepada 4K. Untuk menjana imej resolusi ultra tinggi (seperti 2K/4K), bilangan token akan meningkat dengan ketara, yang akan membawa kepada peningkatan ketara dalam keperluan pengkomputeran.

Untuk menyelesaikan masalah ini, mereka memperkenalkan modul perhatian kendiri yang ditala khas untuk rangka kerja DiT, yang menggunakan pemampatan token kunci dan nilai. Khususnya, mereka menggunakan konvolusi berkumpulan dengan langkah 2 untuk melaksanakan pengagregatan tempatan kunci dan nilai, seperti yang ditunjukkan dalam Rajah 7 di bawah.

Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini

Selain itu, pasukan ini menggunakan skim permulaan berat yang direka khas yang membolehkan penyesuaian lancar daripada model pra-latihan tanpa menggunakan mampatan KV (nilai-kunci). Reka bentuk ini berkesan mengurangkan masa latihan dan inferens untuk penjanaan imej resolusi tinggi sebanyak kira-kira 34%. . Ini termasuk:

(1) Penggantian menggunakan pengekod auto variasi yang lebih berkuasa (VAE): menggantikan VAE PixArt-α dengan VAE SDXL.

(2) Untuk mengembangkan daripada resolusi rendah kepada resolusi tinggi, bagi menangani masalah kemerosotan prestasi, mereka menggunakan kaedah interpolasi Position Embedding (PE).

(3) Berevolusi daripada model yang tidak menggunakan pemampatan KV kepada model yang menggunakan pemampatan KV.

Hasil eksperimen mengesahkan kebolehlaksanaan dan keberkesanan kaedah latihan yang lemah-ke-kuat.

Melalui penambahbaikan di atas, PixArt-Σ boleh menjana imej resolusi 4K berkualiti tinggi dengan kos latihan serendah mungkin dan parameter model sesedikit mungkin.

Secara khusus, dengan memulakan model yang sudah terlatih dan memperhalusinya, pasukan itu dapat menghasilkan model yang mampu menjana imej resolusi tinggi 1K menggunakan hanya tambahan 9% masa GPU yang diperlukan oleh PixArt-α. Prestasi ini luar biasa kerana ia turut menggunakan data latihan baharu dan VAE yang lebih berkuasa.

Selain itu, jumlah parameter PixArt-Σ hanyalah 0.6B Sebagai perbandingan, jumlah parameter SDXL dan SD Cascade masing-masing ialah 2.6B dan 5.1B.

Kecantikan imej yang dijana oleh PixArt-Σ adalah setanding dengan produk seni piksel teratas semasa, seperti DALL・E 3 dan MJV6. Selain itu, PixArt-Σ juga menunjukkan keupayaan yang sangat baik untuk penjajaran halus dengan gesaan teks.

Rajah 2 menunjukkan hasil PixArt-Σ menjana imej resolusi tinggi 4K Dapat dilihat bahawa hasil yang dijana mengikut arahan teks yang kompleks dan padat maklumat dengan baik.

ExPeriments

implementation Butiran Butiran: Untuk pengekod teks yang melakukan pengekstrakan ciri bersyarat, pasukan menggunakan pengekodan T5 berikutan amalan peranti Imagen dan Pixart-α (iaitu Flan-T5-XXL). Model resapan asas ialah PixArt-α. Berbeza daripada amalan mengekstrak 77 token teks tetap dalam kebanyakan kajian, panjang token teks ditingkatkan daripada 120 dalam PixArt-α kepada 300 kerana maklumat perihalan yang dianjurkan dalam Internal-Σ lebih padat dan boleh memberikan butiran yang sangat halus. . Selain itu, VAE menggunakan versi beku terlatih bagi VAE daripada SDXL. Butiran pelaksanaan lain adalah sama seperti PixArt-α.

Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini

Model diperkemaskan bermula dari pusat pemeriksaan pra-latihan 256px PixArt-α dan menggunakan teknologi interpolasi benam kedudukan.

Model terakhir (termasuk resolusi 1K) telah dilatih pada 32 GPU V100. Mereka juga menggunakan 16 GPU A100 tambahan untuk melatih model penjanaan imej 2K dan 4K.

Metrik penilaian: Untuk menunjukkan estetika dan keupayaan semantik dengan lebih baik, pasukan itu mengumpulkan 30,000 pasangan imej teks berkualiti tinggi untuk menanda aras model graf Vincent yang paling berkuasa. PixArt-Σ dinilai terutamanya di sini oleh keutamaan manusia dan AI, kerana metrik FID mungkin tidak mencerminkan kualiti penjanaan dengan sewajarnya.

Perbandingan prestasi

Penilaian kualiti imej: Pasukan secara kualitatif membandingkan kualiti penjanaan PixArt-Σ dengan produk teks-ke-imej (T2I) sumber tertutup dan model sumber terbuka. Seperti yang ditunjukkan dalam Rajah 3, berbanding model sumber terbuka SDXL dan PixArt-α pasukan sebelumnya, potret yang dijana oleh PixArt-Σ adalah lebih realistik dan mempunyai keupayaan analisis semantik yang lebih baik. PixArt-Σ mengikut arahan pengguna lebih baik daripada SDXL.

PixArt-Σ bukan sahaja mengatasi model sumber terbuka, tetapi juga bersaing dengan produk sumber tertutup semasa, seperti ditunjukkan dalam Rajah 4.

Jana imej beresolusi tinggi: Kaedah baharu boleh terus menjana imej resolusi 4K tanpa sebarang pasca pemprosesan. Di samping itu, PixArt-Σ juga boleh mematuhi dengan tepat teks panjang yang rumit dan terperinci yang disediakan oleh pengguna. Oleh itu, pengguna tidak perlu bersusah payah mereka bentuk gesaan untuk mendapatkan hasil yang memuaskan.

Kajian keutamaan Manusia/AI (GPT-4V): Pasukan ini juga mengkaji keutamaan manusia dan AI untuk hasil yang dijana. Mereka mengumpul hasil penjanaan 6 model sumber terbuka, termasuk PixArt-α, PixArt-Σ, SD1.5, Stable Turbo, Stable XL, Stable Cascade dan Playground-V2.0. Mereka membangunkan tapak web yang mengumpulkan maklum balas keutamaan manusia dengan memaparkan gesaan dan imej yang sepadan.

Penilai manusia boleh menilai imej berdasarkan kualiti penjanaan dan sejauh mana ia sepadan dengan gesaan. Keputusan ditunjukkan dalam graf bar biru Rajah 9.

Dapat dilihat bahawa penilai manusia lebih suka PixArt-Σ berbanding 6 penjana yang lain. Berbanding dengan model penyebaran graf Vincentian sebelumnya, seperti SDXL (parameter 2.6B) dan SD Cascade (parameter 5.1B), PixArt-Σ boleh menjana kualiti yang lebih tinggi dan lebih konsisten dengan gesaan pengguna dengan imej parameter yang jauh lebih sedikit (0.6B).

Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini

Selain itu, pasukan menggunakan model berbilang mod termaju GPT-4 Vision untuk melaksanakan kajian keutamaan AI. Apa yang mereka lakukan ialah suapan GPT-4 Vision dua imej dan biarkan ia mengundi berdasarkan kualiti imej dan penjajaran teks imej. Hasilnya ditunjukkan dalam bar oren dan hijau dalam Rajah 9, dan dapat dilihat bahawa keadaan itu pada dasarnya konsisten dengan penilaian manusia.

Pasukan juga menjalankan kajian ablasi untuk mengesahkan keberkesanan pelbagai langkah penambahbaikan. Untuk butiran lanjut, sila lawati kertas asal.

^{Artikel rujukan: 1. https://www.shoufachen.com/Awesome-Diffusion-Transformers/}

Atas ialah kandungan terperinci Berdasarkan DiT dan penjanaan imej 4K yang menyokong, model graf Huawei Noah 0.6B Vincent PixArt-Σ ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7719

Tutorial Java

1641

Tutorial CakePHP

1396

Tutorial Laravel

1289

Tutorial PHP

1233

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Aug 22, 2024 pm 08:02 PM

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

See all articles