Rumah > Peranti teknologi > AI > teks badan

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

PHPz
Lepaskan: 2023-08-29 20:25:03
ke hadapan
690 orang telah melayarinya

Dalam beberapa tahun kebelakangan ini, banyak penemuan mengejutkan telah dibuat dalam bidang imej yang dijana teks, dan banyak model mampu menghasilkan imej yang berkualiti tinggi dan pelbagai berdasarkan arahan teks. Walaupun imej yang dijana sudah sangat realistik, model semasa biasanya pandai menjana imej fizikal seperti landskap dan objek, tetapi menghadapi kesukaran menjana imej dengan butiran yang sangat koheren, seperti imej dengan teks glif kompleks seperti aksara Cina

Untuk menyelesaikan masalah ini Masalahnya, daripada Penyelidik dari OPPO dan institusi lain telah mencadangkan rangka kerja pembelajaran universal yang dipanggil GlyphDraw. Matlamat rangka kerja ini adalah untuk membolehkan model menjana imej yang dibenamkan dengan teks yang koheren. Karya ini adalah yang pertama untuk menyelesaikan masalah penjanaan watak Cina dalam bidang sintesis imej

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

  • Sila klik pautan berikut untuk melihat kertas: https://arxiv.org/abs/2303.17870

  • Pautan laman utama projek: https ://1073521013.github.io/glyph-draw.github.io/

Mari kita lihat kesan penjanaan dahulu, seperti menjana slogan amaran untuk dewan pameran:

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Mencipta papan iklan:

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Tambah huraian teks ringkas pada gambar, dan juga pelbagaikan gaya teks

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Satu lagi contoh yang menarik dan praktikal ialah menjana emotikon secara keseluruhan, walaupun

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon , penyelidikan telah menjana keputusan yang cemerlang. Sumbangan utama penyelidikan ini termasuk:

    Penyelidikan ini mencadangkan rangka kerja penjanaan imej aksara Cina yang dipanggil GlyphDraw. Semasa keseluruhan proses penjanaan, menggunakan maklumat tambahan seperti glif dan kedudukan aksara Cina, rangka kerja ini mampu memberikan panduan yang terperinci, supaya imej aksara Cina yang dihasilkan dapat disematkan dengan lancar ke dalam imej dengan kualiti tinggi
  • Ini kajian mencadangkan Strategi latihan yang berkesan ini berjaya mengekalkan prestasi kukuh model dalam penjanaan domain terbuka dengan mengehadkan bilangan parameter boleh dilatih dalam model pra-latihan untuk mengelakkan overfitting dan pelupaan bencana, dan boleh Menjana Imej Karakter Cina dengan tepat
  • Kajian ini memperincikan proses membina set data latihan dan mencadangkan kaedah garis dasar baharu untuk menilai kualiti penjanaan imej aksara Cina. Antaranya, ketepatan penjanaan GlyphDraw mencapai 75%, yang jauh lebih baik daripada kaedah sintesis imej sebelumnya

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Pengenalan model:

Pertama, set data penyelidikan membina imej strategi yang kompleks . Kemudian, menggunakan algoritma sintesis imej sumber terbuka Resapan Stabil, rangka kerja pembelajaran umum GlyphDraw dicadangkan, seperti ditunjukkan dalam Rajah 2. Matlamat keseluruhan latihan resapan stabil boleh dinyatakan sebagai formula berikut:

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikonGlyphDraw adalah berdasarkan Stabil Mekanisme perhatian silang dalam Resapan. Ia melakukan penggantian lata bagi vektor pendam z_t input asal dengan vektor pendam z_t imej, topeng teks l_m dan imej glyph l_g

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon Tambahan pula, dengan menggunakan modul gabungan khusus domain, keadaan C ialah dilengkapi dengan glif bercampur dan ciri teks. Pengenalan topeng teks dan maklumat glif membolehkan keseluruhan proses latihan mencapai kawalan resapan halus, yang merupakan komponen utama untuk meningkatkan prestasi model dan akhirnya dapat menjana imej dengan teks aksara Cina

Khususnya, perwakilan piksel maklumat teks , terutamanya dalam bentuk teks yang kompleks, seperti aksara Cina piktografi, terdapat perbezaan yang jelas daripada objek semula jadi. Sebagai contoh, perkataan Cina "langit" terdiri daripada berbilang strok dalam struktur dua dimensi, dan imej semula jadi yang sepadan ialah "langit biru bertitik awan putih." Sebaliknya, aksara Cina mempunyai butiran yang sangat halus dan pergerakan atau ubah bentuk kecil pun boleh menyebabkan teks menjadi tidak betul, menjadikan penjanaan imej mustahil

Membenamkan aksara ke dalam latar belakang imej semula jadi juga memerlukan pertimbangan isu utama, iaitu mengawal penjanaan piksel teks dengan tepat tanpa menjejaskan piksel imej semula jadi bersebelahan. Untuk memaparkan aksara Cina yang sempurna pada imej semula jadi, pengarang mereka bentuk dua komponen utama, iaitu kawalan kedudukan dan kawalan glif, yang disepadukan ke dalam model sintesis resapan

Tidak seperti input bersyarat global model lain, penjanaan aksara memerlukan lebih Fokus pada kawasan setempat tertentu bagi imej kerana taburan ciri terpendam bagi piksel aksara adalah sangat berbeza daripada piksel imej semula jadi. Untuk mengelakkan pembelajaran model daripada runtuh, kajian ini secara inovatif mencadangkan kawalan kawasan kedudukan berbutir halus untuk memisahkan taburan antara kawasan berbeza

Kandungan bertulis semula: Selain kawalan kedudukan, satu lagi isu penting ialah sintesis strok aksara Cina Dapatkan kawalan halus . Memandangkan kerumitan dan kepelbagaian aksara Cina, adalah sangat sukar untuk hanya belajar daripada set data teks imej yang besar tanpa sebarang pengetahuan terdahulu yang jelas. Untuk menjana aksara Cina dengan tepat, kajian ini memperkenalkan imej glif eksplisit sebagai maklumat bersyarat tambahan ke dalam proses penyebaran model

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Untuk mengekalkan maksud asal tidak berubah, kandungan perlu ditulis semula ke dalam bahasa Cina berikut ialah kandungan yang ditulis semula: Reka Bentuk Penyelidikan dan Hasil Eksperimen

Memandangkan tiada set data sebelumnya khusus untuk penjanaan imej aksara Cina, kajian ini mula-mula mencipta set data penanda aras ChineseDrawText untuk penilaian kualitatif dan kuantitatif. Selepas itu, penyelidik menguji ketepatan penjanaan beberapa kaedah pada ChineseDrawText dan menilainya melalui model pengecaman OCR

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Model GlyphDraw yang dicadangkan dalam kajian ini mencapai ketepatan purata dengan menggunakan sepenuhnya maklumat glif dan kedudukan tambahan. sebanyak 75% membuktikan keupayaan cemerlang model dalam penjanaan imej watak. Rajah di bawah menunjukkan hasil perbandingan visual beberapa kaedah

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Selain itu, GlyphDraw juga boleh mengekalkan prestasi sintesis imej domain terbuka dengan mengehadkan parameter latihan Pada MS-COCO FID-10k, FID sintesis imej umum hanya dihentikan 2.3

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon

Pembaca yang berminat boleh membaca teks asal kertas kerja untuk mengetahui lebih banyak butiran penyelidikan.

Atas ialah kandungan terperinci OPPO mencadangkan GlyphDraw: generasi satu klik imej dengan aksara Cina, model resapan kepada mengeluarkan emotikon. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan