


Penyelidikan HKUST & MSRA: Mengenai penukaran imej-ke-imej, Finetuning adalah semua yang anda perlukan
Banyak projek pengeluaran kandungan memerlukan penukaran lakaran mudah kepada gambar realistik, yang melibatkan terjemahan imej-ke-imej, yang menggunakan pembelajaran model generatif mendalam Taburan bersyarat imej semula jadi yang diberikan input.
Konsep asas penukaran imej-ke-imej ialah menggunakan rangkaian neural yang telah terlatih untuk menangkap manifold imej semula jadi. Transformasi imej adalah serupa dengan merentasi manifold dan mencari titik semantik input yang boleh dilaksanakan. Sistem pra-melatih rangkaian sintetik menggunakan banyak imej untuk memberikan output yang boleh dipercayai daripada sebarang pensampelan ruang terpendamnya. Melalui rangkaian sintetik yang telah terlatih, latihan hiliran menyesuaikan input pengguna kepada perwakilan terpendam model.
Selama bertahun-tahun kami telah melihat banyak kaedah khusus tugasan mencapai tahap SOTA, tetapi penyelesaian semasa bergelut untuk mencipta imej kesetiaan tinggi untuk kegunaan dunia nyata.
Dalam kertas kerja baru-baru ini, penyelidik dari Universiti Sains dan Teknologi Hong Kong dan Microsoft Research Asia percaya bahawa untuk penukaran imej kepada imej, pra-latihan adalah Apa yang anda perlukan. . Kaedah sebelumnya memerlukan reka bentuk seni bina khusus dan melatih model transformasi tunggal dari awal, menjadikannya sukar untuk menjana adegan kompleks dengan kualiti tinggi, terutamanya apabila data latihan berpasangan tidak mencukupi.
Oleh itu, kami menganggap setiap masalah terjemahan imej-ke-imej sebagai tugas hiliran dan memperkenalkan rangka kerja umum ringkas yang menggunakan model resapan terlatih untuk menyesuaikan diri dengan pelbagai terjemahan imej-ke-imej. Mereka memanggil model terjemahan imej-ke-imej yang dicadangkan sebagai PITI (terjemahan imej-ke-imej berasaskan pralatihan). Di samping itu, penyelidik juga mencadangkan untuk menggunakan latihan lawan untuk meningkatkan sintesis tekstur dalam latihan model resapan, dan menggabungkannya dengan pensampelan berpandu ternormal untuk meningkatkan kualiti penjanaan.
Akhir sekali, penyelidik menjalankan perbandingan empirikal yang meluas mengenai pelbagai tugasan pada penanda aras yang mencabar seperti ADE20K, COCO-Stuff dan DIODE, menunjukkan bahawa imej yang disintesis PITI memaparkan realisme dan kesetiaan Perbelanjaan yang tidak pernah berlaku sebelum ini.
- Pautan kertas: https://arxiv.org/pdf/2205.12952.pdf
- Laman utama projek: https://tengfei-wang .github.io/PITI/index.html
GAN sudah mati, model resapan masih hidup
Pengarang tidak menggunakan GAN yang berprestasi terbaik dalam bidang tertentu, tetapi menggunakan model penyebaran , mensintesis pelbagai jenis imej. Kedua, ia harus menjana imej daripada dua jenis kod terpendam: satu yang menerangkan semantik visual dan satu yang menyesuaikan untuk turun naik imej. Semantik, terpendam dimensi rendah adalah penting untuk tugas hiliran. Jika tidak, adalah mustahil untuk mengubah input modal menjadi ruang terpendam yang kompleks. Memandangkan ini, mereka menggunakan GLIDE, model dipacu data yang boleh menjana imej yang berbeza, sebagai penjanaan terlatih sebelum ini. Memandangkan GLIDE menggunakan teks terpendam, ia membenarkan ruang terpendam semantik.
Kaedah resapan dan berasaskan skor menunjukkan kualiti penjanaan merentas penanda aras. Pada ImageNet bersyarat kelas, model ini bersaing dengan kaedah berasaskan GAN dari segi kualiti visual dan kepelbagaian pensampelan. Baru-baru ini, model penyebaran yang dilatih dengan gandingan imej teks berskala besar telah menunjukkan keupayaan yang mengejutkan. Model resapan yang terlatih boleh menyediakan sebelum generatif umum untuk sintesis.
Kerangka
Pengarang boleh menggunakan tugas dalih untuk pra-latihan pada jumlah data yang besar dan membangunkan ruang terpendam yang sangat bermakna untuk meramalkan statistik imej.
Untuk tugasan hiliran, mereka memperhalusi ruang semantik secara bersyarat untuk memetakan persekitaran khusus tugasan. Mesin ini mencipta visual yang boleh dipercayai berdasarkan maklumat yang telah dilatih.
Pengarang mengesyorkan menggunakan input semantik untuk pra-melatih model resapan. Mereka menggunakan model GLIDE berhawa dingin dan terlatih imej. Rangkaian Transformer mengekod input teks dan mengeluarkan token untuk model resapan. Seperti yang dirancang, adalah wajar untuk teks dibenamkan dalam ruang.
Gambar di atas adalah hasil kerja penulis. Model terlatih meningkatkan kualiti dan kepelbagaian imej berbanding teknik dari awal. Memandangkan set data COCO mempunyai banyak kategori dan gabungan, pendekatan asas tidak dapat memberikan hasil yang cantik dengan seni bina yang menarik. Kaedah mereka boleh mencipta butiran yang kaya dengan semantik yang tepat untuk adegan yang sukar. Gambar menggambarkan kepelbagaian pendekatan mereka.
Eksperimen dan Impak
Jadual 1 menunjukkan bahawa prestasi kaedah yang dicadangkan dalam kajian ini sentiasa lebih baik daripada model lain. Berbanding dengan OASIS terkemuka, PITI mencapai peningkatan ketara dalam FID dalam sintesis topeng-ke-imej. Tambahan pula, kaedah ini juga menunjukkan prestasi yang baik dalam tugasan sintesis lakaran-ke-imej dan geometri-ke-imej.
Rajah 3 menunjukkan hasil visualisasi kajian ini pada tugasan yang berbeza. Eksperimen menunjukkan bahawa berbanding dengan kaedah latihan dari awal, model pra-latihan meningkatkan kualiti dan kepelbagaian imej yang dihasilkan dengan ketara. Kaedah yang digunakan dalam kajian ini boleh menghasilkan butiran yang jelas dan semantik yang betul walaupun untuk tugas penjanaan yang mencabar.
Penyelidikan itu turut menjalankan kajian pengguna tentang sintesis topeng-ke-imej pada COCO-Stuff di Amazon Mechanical Turk, dengan 3000 keputusan daripada 20 tiket peserta. Peserta diberi dua imej pada satu masa dan diminta mengundi yang mana satu lebih realistik. Seperti yang ditunjukkan dalam Jadual 2, kaedah yang dicadangkan mengatasi model dari awal dan garis dasar lain secara besar-besaran.
Sintesis imej bersyarat menghasilkan gambar berkualiti tinggi yang memenuhi syarat tertentu. Bidang penglihatan komputer dan grafik menggunakannya untuk mencipta dan memanipulasi maklumat. Pra-latihan berskala besar meningkatkan klasifikasi imej, pengecaman objek dan pembahagian semantik. Apa yang tidak diketahui ialah sama ada pralatihan berskala besar bermanfaat untuk tugas penjanaan umum.
Penggunaan tenaga dan pelepasan karbon adalah isu utama dalam pra-latihan imej. Pra-latihan memerlukan tenaga, tetapi hanya diperlukan sekali sahaja. Penalaan halus bersyarat membolehkan tugas hiliran menggunakan model pra-latihan yang sama. Pralatihan membolehkan model generatif dilatih dengan kurang data latihan, meningkatkan sintesis imej apabila data terhad disebabkan isu privasi atau kos anotasi yang mahal.
Atas ialah kandungan terperinci Penyelidikan HKUST & MSRA: Mengenai penukaran imej-ke-imej, Finetuning adalah semua yang anda perlukan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh
