Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik-AI-php.cn

Jadual Kandungan

Kaedah

Eksperimen

Rumah

Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik

PHPz

Apr 13, 2023 am 10:37 AM

ai melukis

Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik

Alamat kertas: https://arxiv.org/pdf/2302.09778v2.pdf
Alamat projek: https://github.com/damo-vilab/composer

Dalam tahun kebelakangan ini Baru-baru ini, model generatif berskala besar yang dipelajari pada data besar boleh mensintesis imej dengan cemerlang, tetapi mempunyai kebolehkawalan terhad. Kunci kepada penjanaan imej yang boleh dikawal bukan sahaja bergantung pada syarat tetapi, lebih penting lagi, pada komposisi. Yang terakhir boleh mengembangkan ruang kawalan secara eksponen dengan memperkenalkan sejumlah besar kombinasi berpotensi (cth. 100 imej dengan 8 perwakilan setiap satu, menghasilkan kira-kira 100^8 kombinasi). Konsep yang sama telah diterokai dalam bidang pemahaman bahasa dan adegan, di mana komposisi dikenali sebagai generalisasi gabungan, kemahiran mengenal pasti atau menjana bilangan gabungan baharu yang berpotensi tidak terhingga daripada set komponen yang diketahui terhad.

Satu penyelidikan terkini menyediakan paradigma generasi baharu yang boleh mengawal imej keluaran secara fleksibel (seperti reka letak ruang dan palet warna) sambil mengekalkan kualiti komposisi dan daya penciptaan model.

Penyelidikan ini mengambil komposisi sebagai idea teras pertama kali menguraikan imej kepada faktor perwakilan, dan kemudian melatih model resapan yang dikondisikan pada faktor ini untuk menyusun semula input. Semasa fasa inferens, perwakilan perantaraan yang kaya berfungsi sebagai elemen boleh gubah, menyediakan ruang reka bentuk yang besar untuk penciptaan kandungan yang boleh disesuaikan (iaitu, berkadar eksponen dengan bilangan faktor penguraian). Perlu diingat bahawa kaedah yang dinamakan Komposer menyokong pelbagai peringkat keadaan, seperti penerangan teks sebagai maklumat global, peta kedalaman dan lakaran sebagai panduan tempatan, histogram warna sebagai butiran peringkat rendah, dsb.

Selain meningkatkan kebolehkawalan, kajian ini mengesahkan bahawa Komposer boleh berfungsi sebagai rangka kerja umum yang memudahkan pelbagai tugas penjanaan klasik tanpa memerlukan latihan semula.

Kaedah

Rangka kerja yang diperkenalkan dalam artikel ini termasuk peringkat penguraian (imej dibahagikan kepada set komponen bebas) dan peringkat sintesis (komponen digabungkan semula menggunakan model resapan bersyarat) . Di sini kami mula-mula memperkenalkan secara ringkas model resapan dan arah bimbingan yang dilaksanakan menggunakan Komposer, dan kemudian memperincikan pelaksanaan penguraian dan sintesis imej.

2.1. Model resapan

Model resapan ialah model generatif yang menjana data daripada hingar Gaussian melalui lelaran proses denoising menjana data. Biasanya ralat min kuasa dua mudah digunakan sebagai sasaran denoising:

Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik

di mana, x_0 ialah syarat pilihan Data latihan c, Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik ialah bunyi Gaussian aditif, a_t, σ_t ialah fungsi skalar bagi t, dan ialah model resapan dengan parameter yang boleh dipelajari θ. Bootstrapping tanpa pengelas telah digunakan secara meluas dalam kerja baru-baru ini untuk pensampelan data bersyarat bagi model penyebaran, di mana hingar yang diramalkan dilaraskan oleh:

Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik

Dalam formula Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik

, ω ialah berat bimbingan. DDIM dan DPM-Solver sering digunakan untuk mempercepatkan proses pensampelan model resapan. DDIM juga boleh digunakan untuk menyongsangkan sampel x_0 kepada potensi hingar tulennya x_T, membolehkan pelbagai operasi penyuntingan imej.

Arah bimbingan: Komposer ialah model resapan yang boleh menerima pelbagai keadaan dan boleh mencapai pelbagai arah tanpa bimbingan pengelas:

Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik

c_1 dan c_2 ialah dua set syarat. Pilihan c_1 dan c_2 yang berbeza mewakili penekanan yang berbeza pada syarat.

Syarat dalam (c_2 c_1) ditekankan sebagai ω, syarat dalam (c_1 c_2) ditindas sebagai (1−ω), dan berat panduan keadaan dalam c1∩ c2 ialah 1.0. Panduan dwiarah: Dengan menggunakan keadaan c_1 untuk menyongsangkan imej x_0 kepada x_T yang mendasari, dan kemudian menggunakan syarat lain c_2 untuk sampel daripada x_T, kami dapat menggunakan Komposer untuk memanipulasi imej dengan cara yang terurai, di mana arah manipulasi adalah antara c_2 dan c_1 ditakrifkan oleh perbezaan.

Penguraian

mengkaji penguraian imej kepada perwakilan terurai yang menangkap pelbagai aspek imej dan menerangkan tugas Lapan perwakilan yang digunakan dalam , perwakilan ini diekstrak dalam masa nyata semasa proses latihan.

Kapsyen : Penyelidikan tentang penggunaan langsung tajuk teks imej atau maklumat penerangan dalam data latihan ( Untuk contoh, LAION-5B (Schuhmann et al., 2022) ) sebagai ilustrasi imej. Imej yang telah dilatih juga boleh dimanfaatkan untuk menggambarkan model apabila anotasi tidak tersedia. Kami mencirikan tajuk ini menggunakan ayat dan perkataan yang diekstrak daripada model CLIP ViT-L /14@336px (Radford et al., 2021) yang telah dilatih.

Semantik dan gaya : Kaji imej yang diekstrak menggunakan model CLIP ViT-L/14@336px yang telah terlatih Pembenaman digunakan untuk mencirikan semantik dan gaya imej, serupa dengan unCLIP.

Warna : Kaji statistik warna imej menggunakan histogram CIELab terlicin. Kuantiti ruang warna CIELab kepada 11 nilai rona, 5 nilai tepu dan 5 nilai cahaya, menggunakan sigma pelicinan 10. Daripada pengalaman, tetapan ini berfungsi dengan lebih baik.

Lakaran : Kaji aplikasi model pengesanan tepi, dan kemudian gunakan algoritma penyederhanaan lakaran untuk mengekstrak lakaran imej. Lakaran menangkap butiran tempatan imej dengan kurang semantik.

Instance : Kaji menggunakan model YOLOv5 terlatih untuk menggunakan segmentasi tika pada imej untuk mengekstrak topeng tika mereka. Topeng pembahagian contoh mencerminkan maklumat kategori dan bentuk objek visual.

Peta Kedalaman : Kaji penggunaan model anggaran kedalaman monokular pra-latihan untuk mengekstrak peta kedalaman imej dan menangkap imej secara kasar susun atur.

Intensiti : Kajian ini memperkenalkan imej skala kelabu asal sebagai representasi, memaksa model untuk belajar menangani tahap kebebasan yang terurai daripada warna. Untuk memperkenalkan rawak, kami membuat sampel seragam daripada set pemberat saluran RGB yang dipratentukan untuk mencipta imej skala kelabu.

Penyelidikan : Kaji pengenalan pelekat imej untuk membolehkan Komposer mengehadkan penjanaan atau operasi imej kepada kawasan yang boleh diedit . Perwakilan 4 saluran digunakan, di mana 3 saluran pertama sepadan dengan imej RGB bertopeng dan saluran terakhir sepadan dengan topeng binari.

Perlu diambil perhatian bahawa walaupun artikel ini menjalankan eksperimen menggunakan lapan syarat di atas, pengguna boleh menyesuaikan syarat secara bebas menggunakan Komposer.

Komposisi

mengkaji penggunaan model resapan untuk menggabungkan semula imej daripada set perwakilan. Secara khusus, kajian ini mengeksploitasi seni bina GLIDE dan mengubah suai modul penalaannya. Kajian ini meneroka dua mekanisme berbeza untuk menyesuaikan model berdasarkan perwakilan:

Penyesuaian global: Untuk perwakilan global termasuk pembenaman ayat CLIP, pembenaman imej dan palet warna, kami menayangkan dan menambahkannya pada pembenaman langkah masa. Selain itu, kami menayangkan pembenaman imej dan palet warna kepada lapan token tambahan dan menggabungkannya dengan pembenaman perkataan CLIP, yang kemudiannya digunakan sebagai konteks untuk perhatian silang dalam GLIDE, serupa dengan unCLIP. Memandangkan keadaan adalah sama ada aditif atau boleh ditutup secara terpilih dalam perhatian silang, keadaan boleh digugurkan terus semasa latihan dan inferens, atau keadaan global baharu diperkenalkan.

Penyaman penyetempatan: Untuk perwakilan setempat, termasuk lakaran, topeng segmentasi, peta kedalaman, imej keamatan dan imej topeng, kami menggunakan lapisan konvolusi bertindan untuk menayangkannya dengan hingar X_t terpendam mempunyai seragam -benam berdimensi dengan saiz spatial yang sama. Jumlah benam ini kemudiannya dikira dan hasilnya digabungkan kepada x_t, yang kemudiannya dimasukkan ke dalam UNet. Memandangkan benam adalah bahan tambahan, ia adalah mudah untuk menyesuaikan keadaan yang hilang atau menggabungkan keadaan setempat baharu.

Strategi latihan bersama: Adalah penting untuk mereka bentuk strategi latihan bersama yang membolehkan model belajar menyahkod imej daripada pelbagai kombinasi keadaan. Kajian itu bereksperimen dengan beberapa konfigurasi dan mengenal pasti konfigurasi mudah tetapi berkesan yang menggunakan kebarangkalian keluar bebas 0.5 untuk setiap keadaan, kebarangkalian 0.1 untuk mengalih keluar semua syarat, dan kebarangkalian 0.1 untuk mengekalkan semua syarat. Kebarangkalian keciciran khas sebanyak 0.7 digunakan untuk imej keamatan kerana ia mengandungi sebahagian besar maklumat tentang imej dan mungkin melemahkan keadaan lain semasa latihan.

Model resapan asas menghasilkan imej resolusi 64 × 64. Untuk menjana imej resolusi tinggi, kajian ini melatih dua model resapan tanpa syarat untuk pensampelan tinggi, masing-masing meningkatkan imej daripada 64 × 64 kepada 256 × 256, dan daripada resolusi 256 × 256 hingga 1024 × 1024. Seni bina model upsampling diubah suai daripada unCLIP, di mana penggunaan lebih banyak saluran dalam lapisan resolusi rendah dikaji dan blok perhatian kendiri diperkenalkan untuk mengembangkan kapasiti. Model terdahulu pilihan juga diperkenalkan yang menjana benam imej daripada sari kata. Secara empirikal, model terdahulu boleh meningkatkan kepelbagaian imej yang dijana di bawah kombinasi keadaan tertentu.

Eksperimen

Variasi: Menggunakan Komposer anda boleh mencipta imej baharu yang serupa dengan imej yang diberikan, tetapi dikondisikan pada subset tertentu perwakilannya Ia berbeza dalam sesetengah cara. Dengan berhati-hati memilih gabungan perwakilan yang berbeza, seseorang boleh mengawal julat perubahan imej secara fleksibel (Rajah 2a). Selepas memasukkan lebih banyak syarat, kaedah yang dibentangkan dalam kajian menjana varian unCLIP yang hanya menetapkan syarat pada pembenaman imej: menggunakan Komposer adalah mungkin untuk mencipta imej baharu yang serupa dengan imej tertentu, tetapi bersyarat pada subset tertentu bagi perwakilannya. . Refleksi, berbeza dalam beberapa cara. Dengan berhati-hati memilih gabungan perwakilan yang berbeza, seseorang boleh mengawal julat perubahan imej secara fleksibel (Rajah 2a). Selepas memasukkan lebih banyak syarat, kaedah yang dicadangkan mencapai ketepatan pembinaan semula yang lebih tinggi daripada unCLIP, yang hanya dikondisikan pada pembenaman imej.

Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik

Atas ialah kandungan terperinci Idea baharu untuk lukisan AI: Model baharu sumber terbuka domestik dengan 5 bilion parameter, mencapai lonjakan dalam kebolehkawalan dan kualiti sintetik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7450

Tutorial CakePHP

1374

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Apr 07, 2025 pm 09:39 PM

Apabila menukar rentetan ke objek dalam vue.js, json.parse () lebih disukai untuk rentetan json standard. Untuk rentetan JSON yang tidak standard, rentetan boleh diproses dengan menggunakan ungkapan biasa dan mengurangkan kaedah mengikut format atau url yang dikodkan. Pilih kaedah yang sesuai mengikut format rentetan dan perhatikan isu keselamatan dan pengekodan untuk mengelakkan pepijat.

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Vue.js Bagaimana untuk menukar pelbagai jenis rentetan ke dalam pelbagai objek? Apr 07, 2025 pm 09:36 PM

Ringkasan: Terdapat kaedah berikut untuk menukar array rentetan vue.js ke dalam tatasusunan objek: Kaedah asas: Gunakan fungsi peta yang sesuai dengan data yang diformat biasa. Permainan lanjutan: Menggunakan ungkapan biasa boleh mengendalikan format yang kompleks, tetapi mereka perlu ditulis dengan teliti dan dipertimbangkan. Pengoptimuman Prestasi: Memandangkan banyak data, operasi tak segerak atau perpustakaan pemprosesan data yang cekap boleh digunakan. Amalan Terbaik: Gaya Kod Jelas, Gunakan nama dan komen pembolehubah yang bermakna untuk memastikan kod ringkas.

Cara menetapkan masa tamat vue axios Apr 07, 2025 pm 10:03 PM

Untuk menetapkan masa untuk Vue Axios, kita boleh membuat contoh Axios dan menentukan pilihan masa tamat: dalam tetapan global: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dalam satu permintaan: ini. $ axios.get ('/api/pengguna', {timeout: 10000}).

Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Apr 08, 2025 am 11:36 AM

Pengoptimuman prestasi MySQL perlu bermula dari tiga aspek: konfigurasi pemasangan, pengindeksan dan pengoptimuman pertanyaan, pemantauan dan penalaan. 1. Selepas pemasangan, anda perlu menyesuaikan fail my.cnf mengikut konfigurasi pelayan, seperti parameter innodb_buffer_pool_size, dan tutup query_cache_size; 2. Buat indeks yang sesuai untuk mengelakkan indeks yang berlebihan, dan mengoptimumkan pernyataan pertanyaan, seperti menggunakan perintah menjelaskan untuk menganalisis pelan pelaksanaan; 3. Gunakan alat pemantauan MySQL sendiri (ShowProcessList, ShowStatus) untuk memantau kesihatan pangkalan data, dan kerap membuat semula dan mengatur pangkalan data. Hanya dengan terus mengoptimumkan langkah -langkah ini, prestasi pangkalan data MySQL diperbaiki.

See all articles