


iFLYTEK ICDAR 2023: Pengiktirafan imej dan teks mencapai kegemilangan yang lebih besar sekali lagi, memenangi empat kejuaraan
ICDAR 2023 (International Conference on Document Analysis and Recognition) Sebagai salah satu persidangan antarabangsa terpenting dalam bidang analisis dan pengiktirafan imej dokumen, berita menarik datang baru-baru ini:
iFlytek Research The institute dan Pusat Penyelidikan Kejuruteraan Kebangsaan bagi Pemprosesan Maklumat Pertuturan dan Bahasa (selepas ini dirujuk sebagai Pusat Penyelidikan) Universiti Sains dan Teknologi China (selepas ini dirujuk sebagai Pusat Penyelidikan) memenangi empat kejohanan dalam tiga pertandingan: formula berbilang baris pengecaman, lokasi dan pengekstrakan maklumat dokumen, dan pengekstrakan maklumat teks berstruktur.
MLHME之冠: Fokus pada "tulisan berbilang baris" dan terobos dalam kerumitan
#🎜🎜🎜##🎜 ( Pertandingan pengecaman formula berbilang baris) menguji ketepatan output algoritma yang sepadan dengan rentetan LaTex selepas memasukkan imej yang mengandungi formula matematik tulisan tangan. Perlu dinyatakan bahawa berbanding dengan pertandingan pengecaman formula matematik sebelum ini, pertandingan ini telah menetapkan "penulisan berbilang baris" sebagai cabaran utama buat kali pertama dalam industri Berbeza daripada formula sebelum ini untuk mengenali tulisan tangan yang diimbas dan dalam talian, kali ini akan mengenali tulisan tangan bergambar Terutamanya formula berbilang baris.#🎜 Kualiti gambar tidak bagus Tinggi, gangguan pembetulan
Sebagai tindak balas kepada masalah bahawa struktur formula adalah kompleks dan menduduki berbilang baris, pasukan menggunakan Conv2former dengan kernel lilitan besar sebagai struktur pengekod, yang mengembang bidang pandangan model dan lebih baik menangkap struktur formula berbilang baris. Ciri-ciri inovatif mencadangkan SSD penyahkod jujukan berstruktur berasaskan pengubah, yang secara eksplisit memodelkan perhubungan hierarki dalam formula berbilang baris dengan cara yang diperhalusi, meningkatkan generalisasi dengan lebih baik. struktur kompleks dan pemodelan struktur yang lebih baik.
Sebagai tindak balas kepada masalah kekaburan watak yang disebabkan oleh masalah kualiti gambar, pasukan secara inovatif mencadangkan algoritma latihan penyahkod yang dipertingkatkan secara semantik Melalui latihan bersama semantik dan penglihatan, penyahkod mempunyai pengetahuan domain intrinsik. Apabila aksara sukar dikenal pasti, model boleh menyesuaikan diri menggunakan pengetahuan domain untuk membuat inferens dan memberikan hasil pengiktirafan yang paling munasabah.
Untuk menangani masalah perubahan saiz aksara yang besar, pasukan mencadangkan algoritma anggaran skala aksara adaptif dan strategi penyahkodan gabungan berbilang skala, yang telah meningkatkan keteguhan model kepada perubahan dalam saiz aksara.
DocILEMahkota: "Pilih satu dalam barisan", pertandingan berkembar kedudukan maklumat dan pengekstrakan maklumat mendahului senarai# 🎜🎜 #DocILE (Lokasi Maklumat Dokumen dan Pertandingan Pengekstrakan) menilai prestasi kaedah pembelajaran mesin dalam mencari, mengekstrak dan mengenal pasti item baris maklumat utama dalam dokumen perniagaan separa berstruktur.
Permainan ini dibahagikan kepada dua tugasan trek: KILE dan LIR. Tugas KILE perlu mencari lokasi maklumat utama bagi kategori yang dipratentukan dalam dokumen Atas dasar ini, tugasan LIR selanjutnya mengumpulkan setiap maklumat utama ke dalam item baris yang berbeza (Item Baris), seperti objek tunggal (kuantiti, harga) dalam satu. baris dalam meja )tunggu. iFlytek dan Pusat Penyelidikan akhirnya memenangi kejuaraan dalam dua treksenarai trek KILE
ranking trek LIR
Kiri adalah penerangan trek KILE, kanan adalah penerangan trek LIR
Dalam peringkat pra-latihan, kami mereka bentuk penapis dokumen berdasarkan kualiti OCR dengan mengekstrak 2.74 juta halaman imej dokumen daripada dokumen tanpa nota yang disediakan oleh penganjur. Kemudian, kami menggunakan model bahasa pra-latihan untuk mendapatkan perwakilan semantik setiap baris teks dalam dokumen, dan menggunakan tugas pemulihan perwakilan ayat bertopeng, pra-latihan di bawah konfigurasi Top-K yang berbeza (jangka perhatian dokumen dalam GraphDoc model (hiperparameter)
Dalam peringkat penalaan halus set data, pasukan menggunakan GraphDoc terlatih untuk mengekstrak perwakilan berbilang mod kotak teks dan melaksanakan operasi pengelasan. Berdasarkan keputusan pengelasan, perwakilan berbilang mod dihantar ke modul gabungan perhatian peringkat rendah untuk pengagregatan contoh Berdasarkan pengagregatan contoh, modul gabungan perhatian peringkat tinggi digunakan untuk merealisasikan pengagregatan kejadian item baris. Gabungan perhatian yang dicadangkan Modul mempunyai struktur yang sama tetapi tidak berkongsi parameter antara satu sama lain Ia boleh digunakan untuk kedua-dua tugas KILE dan LIR dengan hasil yang baik. . tugasan, iFlytek Memenangi tempat pertama dalam subtrek pengekstrakan maklumat berstruktur sifar sampel yang sangat sukar (Tugas3: E2E pengekstrakan teks berstruktur sifar sampel) dengan pusat penyelidikan
tertib kedudukan dalam jenis berlainan yang ditetapkan secara rasmi invois yang perlu diekstrak Dalam konteks elemen utama, trek memerlukan pasukan yang mengambil bahagian untuk menggunakan model untuk mengeluarkan kandungan yang sepadan bagi elemen utama ini dalam gambar "Sampel sifar" bermakna tiada pertindihan antara jenis invois set latihan dan set ujian; trek meneliti ramalan hujung ke hujung model Untuk ketepatan, ambil purata wajaran skor1 dan skor2 sebagai indeks penilaian akhir. Untuk model pra-latihan, sampel sifar mengemukakan keperluan yang lebih tinggi. Pada masa yang sama, terdapat pelbagai format invois yang digunakan dalam pertandingan, dan nama perhentian perjalanan, masa berlepas dan elemen lain dalam setiap format adalah berbeza. Selain itu, foto invois mempunyai masalah seperti gangguan latar belakang, pantulan dan pertindihan teks, yang meningkatkan lagi kesukaran pengenalan dan pengekstrakan
Invois dalam format berbeza
Atas dasar ini, pasukan juga menggabungkan model pengekstrakan berbilang elemen seperti UniLM, LiLT dan DocPrompt untuk meningkatkan lagi kesan pengekstrakan elemen akhir, membolehkannya menunjukkan kelebihan prestasi yang lebih baik dalam senario dan bahasa yang berbeza
Tidak lama dahulu, Pembantu Penyelidik Saintifik Spark telah dikeluarkan di forum utama Festival Pembangun iFlytek Global 1024 Salah satu daripada tiga fungsi teras pembacaan kertas boleh merealisasikan tafsiran pintar kertas dan menjawab soalan berkaitan dengan pantas. Selepas itu, berdasarkan pengecaman formula berketepatan tinggi, kesan formula struktur kimia organik, grafik, ikon, carta alir, jadual dan pengecaman pemandangan berstruktur lain akan dimajukan dengan lebih baik
Teknologi penentududukan dan pengekstrakan maklumat dokumen digunakan secara meluas dalam bidang kewangan, seperti pengekstrakan dan semakan elemen kontrak, pengekstrakan elemen bil bank, semakan perlindungan pengguna kandungan pemasaran dan senario lain. Teknologi ini boleh merealisasikan fungsi seperti analisis data, pengekstrakan maklumat dan semakan perbandingan dokumen atau fail, dan membantu data perniagaan dimasukkan, diekstrak dan dibandingkan dengan cepat, seterusnya meningkatkan kecekapan proses semakan dan mengurangkan kos Dalam ini 1024 utama Pembantu kesihatan AI peribadi yang disiarkan di forum ialah iFlytek Xiaoyi. Ia bukan sahaja boleh mengimbas senarai semak dan pesanan ujian dan memberikan analisis dan cadangan, tetapi ia juga boleh mengimbas kotak pil dan membuat pertanyaan lanjut dan memberikan cadangan ubat tambahan. Untuk laporan pemeriksaan fizikal, pengguna boleh mengambil gambar dan memuat naiknya, dan iFlytek Xiaoyi boleh mengenal pasti maklumat penting, mentafsir petunjuk abnormal secara menyeluruh, bertanya secara proaktif dan memberikan lebih banyak bantuan. Fungsi ini bergantung pada sokongan kedudukan maklumat dokumen dan teknologi pengekstrakan teknologi pengecaman imej dan teks iFlytek terus membuat penemuan dalam algoritma, daripada pengecaman perkataan tunggal dan pengecaman baris teks kepada pengecaman struktur dua dimensi dan pengecaman bab yang lebih kompleks . Teknologi pengecaman imej dan teks yang lebih berkuasa boleh meningkatkan kesan dan potensi model besar berbilang modal dalam penerangan imej, soalan dan jawapan imej, penciptaan pengecaman imej, pemahaman dan pemprosesan dokumen, dll. Pada masa yang sama, teknologi pengecaman imej dan teks juga menggabungkan pengecaman pertuturan, Sintesis pertuturan, terjemahan mesin dan teknologi lain telah membentuk inovasi yang sistematik, dan produk yang diperkasakan telah menunjukkan fungsi yang lebih berkuasa dan kelebihan nilai yang lebih jelas selepas permohonan juga memenangi hadiah pertama Anugerah Kemajuan Teknologi Kecerdasan Buatan Wu Wenjun 2022. . Dalam perjalanan baharu itu, "lebih mekar" dalam beberapa pertandingan ICDAR 2023 bukan sahaja maklum balas daripada kemajuan berterusan iFlytek dalam kedalaman teknologi pengecaman dan pemahaman imej dan teks, tetapi juga pengesahan pengembangan berterusannya secara meluas.
Atas ialah kandungan terperinci iFLYTEK ICDAR 2023: Pengiktirafan imej dan teks mencapai kegemilangan yang lebih besar sekali lagi, memenangi empat kejuaraan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au
