Baru-baru ini, lukisan AI telah menjadi kegemaran ramai di dalam dan luar negara. Bulan lalu, karya pereka permainan "Space Opera" yang dicipta menggunakan alat lukisan AI Midjourney memenangi pingat emas dalam pertandingan seni Colorado State Fair.
Diinspirasikan oleh ini, Pasukan Profesor Lu Zhiwu di Universiti Renmin China secara inovatif menggabungkan model pra-latihan pelbagai mod yang dibangunkan sendiri Wenlan dengan penjanaan imej terkini teknologi mencipta model penjanaan lukisan AI yang paling memahami budaya tradisional Cina.
Model Wenlan ialah model ramalan pelbagai mod Cina berskala besar yang diketuai oleh Profesor Wen Jirong, Dekan Eksekutif Hillhouse School of Artificial Intelligence, Universiti Renmin China, Profesor Lu Zhiwu, dan Profesor Madya Tetap Song Ruihua Latih model itu. Model Wenlan telah dilatih terlebih dahulu oleh 650 juta pasangan teks imej Cina yang berkaitan lemah, dan telah mempelajari keupayaan pemahaman semantik Cina yang unik dan boleh mentafsir bahasa Cina dengan baik semantik Dihubungkan dengan maklumat visual, terutamanya pandai membaca semantik tersirat yang unik dari konsep Cina dan abstrak dalam gambar.
Pada bulan Jun tahun ini, hasil penyelidikan yang berkaitan "Ke arah kecerdasan am buatan melalui model asas multimodal" telah diterbitkan dalam Nature Communications.
Pautan kertas: https://www.nature.com/articles/s41467-022- 30761-2
Pasukan penyelidik meneroka potensi model Wenlan dan menggabungkannya dengan teknologi generatif terkini The innovative gabungan keupayaan pemahaman semantik abstrak Wenlan dan kebolehan penjanaan model generatif yang berkuasa memastikan model yang dihasilkan dapat mentafsir semantik teks input dengan cemerlang dan menghasilkan gambar dengan semantik yang sepadan.
Pasukan menumpukan pada meneroka potensi Wenlan dalam budaya tradisional Cina, meminjam seni bina model generatif terkini dan latihan mengenai set data lukisan tradisional Cina yang dikumpul , model yang diperoleh boleh menjana imej gaya yang sepadan berdasarkan teks input. Gambar rajah seni bina terperinci ditunjukkan di bawah.
Secara khusus, pasukan melatih model generatif tanpa syarat pada set data lukisan Cina dan menjananya secara berulang kaedah menggunakan model Wenlan untuk membimbing proses penjanaan.
Kaedah ini mula-mula secara rawak memulakan imej hingar. Dalam setiap langkah penjanaan, model akan melaraskan kandungan imej yang dihasilkan dalam arah yang hampir dengan teks input, supaya kandungan imej yang dihasilkan pada setiap langkah dan teks input cenderung konsisten dalam ruang terpendam Model Wenlan. Langkah ini boleh diterangkan sebagai:
di mana x dan y masing-masing mewakili imej dan teks, IE dan TE mewakili pengekod imej dan teks Wenlan . Melalui lelaran berterusan, model ini boleh mencapai fungsi menghasilkan gambar simbol berkualiti tinggi berdasarkan semantik teks.
Disebabkan oleh ciri-ciri model Wenlan itu sendiri, model lukisan Wenlan boleh menghasilkan gambar yang sepadan berdasarkan input Cina kuno pantun. Seperti yang dapat dilihat daripada contoh-contoh berikut, gambar-gambar yang dihasilkan oleh model adalah sangat konsisten dengan kandungan dan konsep artistik puisi kuno.
Pada masa yang sama, pasukan itu juga mendapati bahawa Model lukisan Wen Lan malah mempunyai tafsiran unik terhadap Konfusianisme, Buddhisme dan Taoisme yang tidak jelas .
Untuk menunjukkan dengan lebih baik ciri model lukisan Wenlan dalam mentafsir Konfusianisme, Buddhisme dan Taoisme, pasukan memilih model lukisan AI yang paling popular di dalam dan luar negara untuk analisis perbandingan, termasuk Dream Stealer, Wenxin dan Disco Resapan , Pertengahan Perjalanan dan Resapan Stabil. Untuk Disco Diffusion, Midjourney dan Stable Diffusion, teks bahasa Cina perlu diterjemahkan oleh Baidu terlebih dahulu.
Berdasarkan hasil yang dihasilkan dalam rajah di bawah, Dream Stealer, Disco Diffusion, Midjourney dan Stable Diffusion cenderung untuk menghasilkan beberapa objek konkrit dalam ayat atau menghasilkan beberapa gambar yang lebih baik tetapi mempunyai perbezaan. isi. Ayat-ayat itu tidak banyak kaitan dengan gambar. Wenxin cenderung menjana gambar dengan aksara, malah secara langsung sepadan dengan cahaya sebagai lilin yang dinyalakan.
Model lukisan Wenlan dapat membaca dengan lebih baik maksud keseluruhan ayat dan pemikiran Confucian yang terkandung di dalamnya, seterusnya menghasilkan gambar yang lebih sesuai dengan pemikiran ini.
Kedua, untuk input teks yang mengandungi pemikiran Buddha, model generasi lukisan yang paling popular hanya boleh menangkap sebahagian daripadanya cara yang disasarkan, dan sesetengah model lukisan mungkin salah faham idea di dalamnya.
Seperti yang ditunjukkan dalam hasil yang dihasilkan dalam rajah di bawah, Wen Xin memahami "Jika anda melihat Tao dan melupakan gunung, dunia akan menjadi sunyi; jika anda melihat gunung dan lupa Tao, gunung akan menjadi bising" seperti yang difikirkan oleh Tao (menjana imej seorang paderi Tao). Model lukisan Wenlan boleh mentafsir dengan baik pemikiran Buddha bagi teks input dan mencerminkannya dalam gambar yang dihasilkan.
Akhir sekali, dari segi Pemikiran Tao, pasukan memilih tiga ayat paling teras dalam Tao Te Ching. Berbanding dengan Dream Stealer, Disco Diffusion, Midjourney dan Stable Diffusion, Wen Xin mempunyai keupayaan yang lebih baik untuk mentafsir Tao Te Ching.
Tetapi secara keseluruhan, model lukisan Wenlan mentafsir pemikiran Tao dengan lebih tepat, dan gambar yang dihasilkan mempunyai konsep seni yang lebih Tao.
Pasukan Wenlan menggabungkan teknologi penjanaan lukisan AI yang popular baru-baru ini dengan model pra-latihan pelbagai mod China Wenlan untuk meneroka secara mendalam peranan model Wenlan di China Potensi budaya tradisional Cina dipaparkan dalam bentuk gambar melalui model generatif, supaya masyarakat umum boleh mempunyai pemahaman yang lebih intuitif tentang beberapa pemikiran budaya tradisional Cina yang mendalam.
Atas ialah kandungan terperinci Model lukisan AI dengan pemahaman yang kuat tentang budaya tradisional Cina Lukisan itu nyata dan rohani, menyampaikan Konfusianisme, Buddhisme dan Taoisme.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!