Lors de l'ICDAR 2023, l'événement majeur dans le domaine de la reconnaissance de texte mondiale (OCR), l'équipe OCR de Tencent a remporté quatre championnats basés sur des algorithmes auto-développés. C'est la quatrième fois consécutive qu'elle participe à la conférence et obtient de bons résultats depuis 2017. 2019 et 2021. Au total, 18 championnats de certification officiels ont été remportés, démontrant le niveau de classe mondiale de la technologie OCR de Tencent.
La conférence ICDAR est une conférence académique faisant autorité reconnue dans le domaine de l'analyse et de la reconnaissance mondiales d'images de documents. Elle a lieu tous les deux ans. L'événement a attiré près de 8 000 équipes de plus de 100 pays. Le concours ICDAR est bien connu au pays et à l'étranger pour sa difficulté technique extrêmement élevée et son caractère pratique. Contrairement aux classements informels après la compétition, le concours officiel officiellement certifié par l'ICDAR utilise un nouvel ensemble de données, ainsi que les informations et informations des équipes participantes. Les résultats ne sont pas annoncés pendant le concours, bien que limitant le temps et le nombre de soumissions des résultats, ils sont très difficiles à « saisir à l'aveugle ».
Cette année, l'équipe Tencent OCR est composée conjointement du département Tencent Data Platform et du département WeChat Technology Architecture. Elle s'est concentrée sur la participation aux deux concours majeurs DSText (Dense Small Text Video Text Recognition) et SVRD (Structured Information Extraction), et a obtenu le championnat sur piste 4 A.
Le concours DSText (Dense Small Text Video Text Recognition) a mis en place deux tâches : le suivi du texte vidéo et la reconnaissance de bout en bout du texte vidéo. Parce que le texte est très dense et très petit, couplé aux interférences environnementales (bougé d'appareil photo, flou de mouvement, changements d'éclairage, etc.) et à la post-édition (découpe d'écran multi-objectifs, arrière-plan artificiel, changement d'interface de jeu, etc.), il est difficile à détecter et à suivre avec précision à partir d'images vidéo. La reconnaissance de texte nécessite une grande robustesse de l'algorithme et est extrêmement difficile. Quelques images vidéo du concours sont présentées ci-dessous :
Cadres schématiques du concours ICDAR-DSText
Dans les 2 tâches du concours DSText, l'équipe Tencent OCR a remporté le championnat avec une avance absolue.
Parmi eux, la tâche 1 vise à suivre tous les flux de texte dans la vidéo et à regrouper les images de détection appartenant à la même instance de texte entre les images vidéo. L'indicateur d'évaluation est MOTA en tête de 12,04 %.
Suivi de texte vidéo : certificat de championnat
menant la deuxième place de 11,93%.
Reconnaissance de bout en bout du texte vidéo : certificat de championnat
La compétition SVRD (Structured Information Extraction) comprend deux pistes majeures, HUST-CELL et BAIDU-FEST 4 tâches : Extraction de relations entre entités de documents complexes (E2E Complex Entity Linking), extraction sémantique d'entités de documents complexes (E2E Complex Entity Labeling), extraction d'informations structurées sans tir (E2E Zero-shot Structured Text Extraction) et extraction d'informations structurées sur petits échantillons ( Extraction de texte structuré en quelques plans). En raison de la mise en page complexe et de la structure diversifiée des images de documents, de la collection irrégulière d'images de scènes naturelles, des arrière-plans complexes, de la casse, du pliage, de la déformation et d'autres problèmes, la compétition est assez difficile. Quelques photos de la compétition sont présentées ci-dessous :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!