Jadual Kandungan
Eksperimen dan keputusan
Rumah Peranti teknologi AI Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Apr 11, 2023 pm 08:13 PM
ai imej

Baru-baru ini, banyak penemuan yang tidak dijangka telah dibuat dalam bidang imej yang dijana teks, dan banyak model boleh mencapai fungsi mencipta imej yang berkualiti tinggi dan pelbagai berdasarkan arahan teks. Walaupun imej yang dijana sudah sangat realistik, model semasa selalunya pandai menjana imej objek fizikal seperti landskap dan objek, tetapi berjuang untuk menjana imej dengan perincian koheren yang tinggi, seperti imej dengan teks glif kompleks seperti aksara Cina. .

Untuk menyelesaikan masalah ini, penyelidik dari OPPO dan institusi lain telah mencadangkan rangka kerja pembelajaran umum GlyphDraw, yang direka untuk membolehkan model menjana imej yang dibenamkan dengan teks yang koheren bidang sintesis imej Kerja pertama untuk menyelesaikan masalah penjanaan watak Cina.

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

  • Alamat kertas: https://arxiv.org/abs/2303.17870
  • Laman utama projek: https://1073521013.github.io/glyph-draw.github.io/

Mari kita mulakan dengan Mari kita lihat kesan yang dihasilkan, contohnya, menghasilkan slogan amaran untuk dewan pameran:

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Menjana papan iklan:

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Tambahkan penerangan teks ringkas pada gambar Gaya teks juga boleh pelbagai:

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Selain itu, contoh yang paling menarik dan praktikal ialah menjana emotikon:

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Walaupun hasilnya mempunyai beberapa kelemahan, tetapi kesan penjanaan keseluruhan sudah sangat baik. Secara keseluruhannya, sumbangan utama penyelidikan ini termasuk:


  • Penyelidikan ini mencadangkan rangka kerja penjanaan imej aksara Cina pertama GlyphDraw, yang menggunakan beberapa Auxiliary maklumat, termasuk glif dan kedudukan aksara Cina memberikan panduan terperinci sepanjang proses penjanaan, membolehkan imej aksara Cina disematkan dengan lancar ke dalam imej dengan kualiti tinggi
  • Kajian ini mencadangkan The berkesan; strategi latihan mengehadkan bilangan parameter yang boleh dilatih dalam model yang telah dilatih untuk mengelakkan keterlaluan dan melupakan bencana, mengekalkan prestasi penjanaan domain terbuka yang berkuasa model sambil mencapai penjanaan imej aksara Cina yang tepat.
  • Kajian ini memperkenalkan proses pembinaan set data latihan dan mencadangkan penanda aras baharu untuk menilai kualiti penjanaan imej aksara Cina menggunakan model OCR. Antaranya, GlyphDraw mencapai ketepatan penjanaan 75%, jauh lebih baik daripada kaedah sintesis imej sebelumnya.

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Pengenalan Model

Kajian ini mula-mula mereka bentuk set data teks imej yang kompleks Bina strategi, dan kemudian mencadangkan rangka kerja pembelajaran umum GlyphDraw berdasarkan algoritma sintesis imej sumber terbuka Resapan Stabil, seperti ditunjukkan dalam Rajah 2 di bawah.

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Matlamat keseluruhan latihan Stable Diffusion boleh dinyatakan sebagai formula berikut:

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

GlyphDraw adalah berdasarkan mekanisme perhatian silang dalam Stable Diffusion, di mana vektor pendam input asal z_t digantikan dengan gabungan vektor pendam imej z_t, topeng teks l_m dan imej glyph l_g.

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Tambahan pula, keadaan C dilengkapi dengan ciri glif dan teks hibrid dengan menggunakan modul gabungan khusus domain. Pengenalan topeng teks dan maklumat glif membolehkan keseluruhan proses latihan mencapai kawalan resapan halus, yang merupakan komponen utama untuk meningkatkan prestasi model, dan akhirnya menghasilkan imej dengan teks aksara Cina.

Secara khusus, perwakilan piksel bagi maklumat teks, terutamanya bentuk teks yang kompleks seperti aksara Cina piktograf, adalah berbeza dengan ketara daripada objek semula jadi. Sebagai contoh, perkataan Cina "langit" terdiri daripada berbilang strok dalam struktur dua dimensi, dan imej semula jadi yang sepadan ialah "langit biru bertitik awan putih." Sebaliknya, aksara Cina mempunyai sifat yang sangat halus, malah pergerakan atau ubah bentuk kecil boleh menyebabkan pemaparan teks yang salah, menjadikan penjanaan imej mustahil.

Terdapat juga isu utama yang perlu dipertimbangkan semasa membenamkan aksara dalam latar belakang imej semula jadi, iaitu mengawal penjanaan piksel teks dengan tepat sambil mengelak daripada menjejaskan piksel imej semula jadi bersebelahan. Untuk menghasilkan aksara Cina yang sempurna pada imej semula jadi, pengarang mereka dengan teliti dua komponen utama yang disepadukan ke dalam model sintesis resapan, iaitu kawalan kedudukan dan kawalan glif.

Tidak seperti input bersyarat global model lain, penjanaan aksara perlu memberi lebih perhatian kepada kawasan setempat tertentu bagi imej kerana taburan ciri terpendam bagi piksel aksara adalah berbeza daripada imej semula jadi piksel. Untuk mengelakkan pembelajaran model daripada runtuh, kajian ini secara inovatif mencadangkan kawalan kawasan lokasi yang terperinci untuk memisahkan taburan antara kawasan yang berbeza.

Selain kawalan kedudukan, satu lagi isu penting ialah kawalan halus sintesis strok aksara Cina. Memandangkan kerumitan dan kepelbagaian aksara Cina, adalah amat sukar untuk hanya belajar daripada set data teks imej yang besar tanpa pengetahuan terdahulu yang jelas. Untuk menjana aksara Cina dengan tepat, kajian ini menggabungkan imej glif eksplisit sebagai maklumat bersyarat tambahan ke dalam proses penyebaran model.

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Eksperimen dan keputusan

Memandangkan tiada set data sebelum ini khusus untuk penjanaan imej aksara Cina, kajian ini mula-mula membina The set data penanda aras ChineseDrawText digunakan untuk penilaian kualitatif dan kuantitatif, dan kemudian ketepatan penjanaan beberapa kaedah (dinilai oleh model pengecaman OCR) telah diuji dan dibandingkan pada ChineseDrawText.

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Model GlyphDraw yang dicadangkan dalam kajian ini menunjukkan bahawa model tersebut mencapai ketepatan purata 75% dengan menggunakan maklumat glif tambahan dan kedudukan Cemerlang keupayaan penjanaan imej. Hasil perbandingan visual beberapa kaedah ditunjukkan dalam rajah di bawah:

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Selain itu, GlyphDraw juga boleh mengekalkan prestasi sintesis imej domain terbuka dengan mengehadkan latihan parameter, FID sintesis imej umum hanya menurun sebanyak 2.3 pada MS-COCO FID-10k.

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw

Pembaca yang berminat boleh membaca teks asal kertas untuk mengetahui lebih lanjut tentang butiran penyelidikan.

Atas ialah kandungan terperinci Model resapan menjana imej dengan aksara Cina dan mengeluarkan emotikon dengan satu klik: OPPO dan lain-lain cadangan GlyphDraw. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Baris arahan shutdown centos Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Sony mengesahkan kemungkinan menggunakan GPU khas di PS5 Pro untuk membangunkan AI dengan AMD Sony mengesahkan kemungkinan menggunakan GPU khas di PS5 Pro untuk membangunkan AI dengan AMD Apr 13, 2025 pm 11:45 PM

Mark Cerny, Ketua Arkitek SonyinterActiveEntainment (SIE, Sony Interactive Entertainment), telah mengeluarkan lebih banyak butiran perkakasan dari PlayStation5Pro hos generasi akan datang (PS5Pro), termasuk GPU seni bina AMDRDNA2.x yang dinamakan, dan Kod Arsitektur AMDRDNA2.x yang dinamakan. Tumpuan peningkatan prestasi PS5Pro masih pada tiga tiang, termasuk GPU yang lebih kuat, jejak sinar maju dan fungsi resolusi super PSSR yang berkuasa AI. GPU mengamalkan seni bina AmdrDNA2 yang disesuaikan, yang Sony menamakan RDNA2.x, dan ia mempunyai beberapa seni bina RDNA3.

Apakah kaedah sandaran untuk gitlab di centos Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Cara Memeriksa Konfigurasi HDFS CentOS Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Apakah kaedah penalaan prestasi zookeeper di CentOS Apakah kaedah penalaan prestasi zookeeper di CentOS Apr 14, 2025 pm 03:18 PM

Penalaan prestasi zookeeper pada centOs boleh bermula dari pelbagai aspek, termasuk konfigurasi perkakasan, pengoptimuman sistem operasi, pelarasan parameter konfigurasi, pemantauan dan penyelenggaraan, dan lain -lain. Memori yang cukup: memperuntukkan sumber memori yang cukup untuk zookeeper untuk mengelakkan cakera kerap membaca dan menulis. CPU multi-teras: Gunakan CPU multi-teras untuk memastikan bahawa zookeeper dapat memprosesnya selari.

Cara Melatih Model Pytorch di CentOs Cara Melatih Model Pytorch di CentOs Apr 14, 2025 pm 03:03 PM

Latihan yang cekap model pytorch pada sistem CentOS memerlukan langkah -langkah, dan artikel ini akan memberikan panduan terperinci. 1. Penyediaan Persekitaran: Pemasangan Python dan Ketergantungan: Sistem CentOS biasanya mempamerkan python, tetapi versi mungkin lebih tua. Adalah disyorkan untuk menggunakan YUM atau DNF untuk memasang Python 3 dan menaik taraf PIP: Sudoyumupdatepython3 (atau SudodnfupdatePython3), pip3install-upgradepip. CUDA dan CUDNN (Percepatan GPU): Jika anda menggunakan Nvidiagpu, anda perlu memasang Cudatool

Bagaimana sokongan GPU untuk Pytorch di CentOS Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Akhirnya berubah! Fungsi carian Microsoft Windows akan membawa kemas kini baru Akhirnya berubah! Fungsi carian Microsoft Windows akan membawa kemas kini baru Apr 13, 2025 pm 11:42 PM

Penambahbaikan Microsoft ke fungsi carian Windows telah diuji pada beberapa saluran Windows Insider di EU. Sebelum ini, fungsi carian Windows bersepadu dikritik oleh pengguna dan mempunyai pengalaman yang buruk. Kemas kini ini membahagikan fungsi carian ke dalam dua bahagian: carian tempatan dan carian web berasaskan Bing untuk meningkatkan pengalaman pengguna. Versi baru antara muka carian melakukan carian fail tempatan secara lalai. Jika anda perlu mencari dalam talian, anda perlu mengklik tab "Microsoft Bingwebsearch" untuk menukar. Selepas bertukar, bar carian akan memaparkan "Microsoft Bingwebsearch:", di mana pengguna boleh memasukkan kata kunci. Langkah ini berkesan mengelakkan pencampuran hasil carian tempatan dengan hasil carian Bing

See all articles