Beberapa hari lalu, pasukan penyelidikan model besar Institut Penyelidikan Zhiyuan menggunakan sumber terbuka model AltDiffusion dwibahasa terkini, membawa kuasa kukuh penciptaan teks dan grafik AI peringkat profesional ke dunia China:
sokongan ciptaan Cina yang baik dan panjang; dan bahasa Inggeris diselaraskan, kesan visual yang mengejutkan tahap Stable Diffusion asal, ia boleh dikatakan sebagai mahir lukisan AI penceramah Cina bertaraf dunia.
Model inovatif AltCLIP ialah asas kerja ini, melengkapkan model CLIP asal dengan tiga keupayaan merentas bahasa yang lebih kukuh. Kedua-dua model AltDiffusion dan AltCLIP ialah model berbilang bahasa Cina dan Inggeris adalah peringkat pertama kerja, dan kod serta model telah menjadi sumber terbuka.
AltDiffusion
https://github.com/FlagAI-Open/FlagAI/tree/ master/examples/AltDiffusion
AltCLIP
https://github.com/ FlagAI-Open/FlagAI/examples/AltCLIP
Alamat percubaan angkasa HuggingFace:
https://huggingface.co/spaces/BAAI/bilingual_stable_diffusion
Laporan Teknikal
https://arxiv.org/abs/2211.06679
——Lukisan halus Long Prompt + gaya Cina asli, memenuhi keperluan tinggi pakar penciptaan AI Cina
Terima kasih kepada dwibahasa Cina dan Inggeris yang berkuasa berdasarkan AltCLIP Dari segi keupayaan penjajaran, AltDiffusion telah mencapai tahap kesan visual yang serupa dengan Stable Diffusion Khususnya, ia mempunyai kelebihan unik untuk memahami bahasa Cina dan menjadi lebih baik dalam lukisan Cina pencipta gambar.
Panjang Prompt ialah kawasan aliran air untuk menguji keupayaan model menjana teks dan grafik the Prompt, semakin sukar untuk menguji pemahaman bahasa , penjajaran imej dan teks serta keupayaan merentas bahasa.
Di bawah pelarasan input segera panjang bahasa Cina dan Inggeris yang sama, AltDiffusion adalah lebih ekspresif dalam banyak kes penjanaan imej: komposisi elemen yang kaya dan menarik, dan butirannya diterangkan dengan teliti dan tepat .
Kecuali untuk gesaan bahasa Cina dan Inggeris , prestasi input adalah serupa Selain itu, AltDiffusion juga boleh mengimbangi kekurangan gaya lukisan Cina di dunia Barat, menggunakan pasangan imej dan teks Cina untuk terus memperhalusi penjanaan ciri Cina, seperti gaya lukisan Cina model generasi, untuk menghasilkan "gaya Cina" yang sebenar.
AltDiffusion lebih memahami bahasa Cina Ia boleh menerangkan maksud dalam konteks budaya Cina dan memahami niat pencipta dengan serta-merta. Contohnya, perihalan "The Grand Scene of the Tang Dynasty" mengelak daripada keluar topik kerana salah faham budaya.
Terutama untuk konsep yang berasal daripada budaya Cina, kami memahami dan menyatakannya dengan lebih tepat, bagi mengelakkan kekeliruan antara "gaya Jepun" dan "Cina gaya". Situasi yang tidak masuk akal. Contohnya, dengan Stable Diffusion, gesaan input yang sepadan dengan gaya watak sut Tang dalam bahasa Cina dan Inggeris, dan perbezaannya jelas sekali pandang:
Dalam penjanaan gaya tertentu, Ia akan menggunakan konteks budaya Cina secara asli sebagai subjek identiti untuk penciptaan gaya Contohnya, untuk gesaan dengan "seni bina purba" di bawah, seni bina Cina purba akan dijana secara lalai. Gaya kreatif lebih sesuai dengan identiti pencipta Cina.
AltDiffusion adalah berdasarkan Stable Diffusion, dengan menggantikan CLIP dalam Stable Diffusion asal ke dalam AltCLIP, dan seterusnya melatih model menggunakan pasangan imej dan teks bahasa Cina dan Inggeris. Terima kasih kepada keupayaan penjajaran bahasa AltCLIP yang berkuasa, kesan penjanaan AltDiffusion sangat hampir dengan Resapan Stabil dalam bahasa Inggeris, dan ia juga mencerminkan ketekalan dalam prestasi dwibahasa Cina dan Inggeris.
Sebagai contoh, selepas memasukkan Prompt Bahasa Cina dan Inggeris bagi "puppy in a hat" ke dalam AltDiffusion, kesan gambar yang dihasilkan pada asasnya diselaraskan, dengan ketekalan yang sangat tinggi:
Setelah menambah deskriptor "budak Cina" pada gambar "budak lelaki", berdasarkan imej asal budak kecil itu, dia telah disesuaikan dengan tepat untuk menjadi tipikal " Kanak-kanak Cina, yang dipaparkan dalam generasi kawalan bahasa Menghasilkan keupayaan pemahaman bahasa yang sangat baik dan hasil ekspresi yang tepat.
- alatan ekologi yang kaya dan aplikasi PromptsBook , anda boleh Kebolehmainan yang sangat baik
Perlu dinyatakan bahawa keupayaan penyepaduan ekologi AltDiffusion:
Semua alatan yang menyokong Stable Diffusion seperti Stable Diffusion WebUI, DreamBooth, dsb. boleh digunakan dalam model Penyebaran dwibahasa Cina-Inggeris kami menyediakan banyak pilihan untuk penciptaan AI Cina:
Alat web yang sangat baik untuk penjanaan teks dan imej serta teks. dan penyuntingan imej; Apabila kita menukar pemandangan malam Universiti Peking menjadi Hogwarts (prompt: Hogwarts), dunia ajaib yang termenung dapat dipersembahkan dalam sekelip mata; 2. DreamBooth
Alat untuk nyahpepijat model melalui sebilangan kecil sampel untuk menjana gaya tertentu melalui alat ini, gaya tertentu boleh dijana menggunakan sebilangan kecil imej Cina pada AltDiffusion, seperti gaya "Havoc in Heaven".
Gesaan sangat penting untuk menjana model pengguna komuniti telah mengumpul kes kesan generasi kaya melalui a sejumlah besar percubaan gesaan. Pengalaman gesaan yang berharga ini hampir semuanya terpakai kepada pengguna AltDiffusion!
Selain itu, anda juga boleh menggabungkan bahasa Cina dan Inggeris untuk memadankan beberapa gaya dan unsur ajaib, atau terus meneroka gesaan bahasa Cina yang sesuai untuk AltDiffusion.
Sumber terbuka AltDiffusion menyediakan asas untuk model generasi Cina medan khusus Data digunakan untuk memperhalusi model untuk memudahkan ekspresi oleh pencipta Cina.
- Meningkatkan secara menyeluruh tiga keupayaan merentas bahasa utama, penjajaran Cina-Inggeris, bahasa Cina yang lebih baik, ambang yang sangat rendah
Pemahaman bahasa, penjajaran gambar dan teks serta keupayaan merentas bahasa ialah tiga kebolehan yang diperlukan untuk penyelidikan merentas bahasa.
Banyak keupayaan peringkat profesional AltDiffusion diperoleh daripada idea perubahan menara inovatif AltCLIP, yang telah dipertingkatkan sepenuhnya dalam tiga keupayaan utama ini: keupayaan penjajaran bahasa Cina dan Inggeris dengan yang asal CLIP telah banyak dipertingkatkan dengan lancar menyambung kepada semua model dan alatan ekologi yang dibina pada CLIP asal, seperti Stable Diffusion pada masa yang sama, ia dikurniakan dengan keupayaan Cina yang berkuasa untuk mencapai hasil yang lebih baik dalam bahasa Cina pada beberapa set data. (Sila rujuk laporan teknikal untuk penjelasan terperinci)
Perlu dinyatakan bahawa kaedah penjajaran ini sangat mengurangkan ambang untuk melatih model perwakilan berbilang bahasa dan berbilang modal Berbanding dengan semula -melakukan pralatihan pasangan imej dan teks bahasa Cina Atau Inggeris, yang hanya memerlukan kira-kira 1% daripada sumber pengkomputeran dan data pasangan imej dan teks.
Mencapai kesan yang sama seperti versi asal Inggeris dalam penanda aras CLIP komprehensif
Dalam beberapa pengambilan semula data Contohnya, Flicker-30K mempunyai prestasi yang lebih baik daripada versi asal
Flicker-30K mempunyai prestasi yang lebih baik daripada yang asal KLIP
Hasil sifar tangkapan terbaik pada ImageNet Cina
Atas ialah kandungan terperinci Guru AI yang memahami bahasa Cina, gunung dan bulan yang terang dicat ini sangat menakjubkan! Model AltDiffusion dwibahasa Cina-Inggeris telah menjadi sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!