글로벌 문자 인식(OCR) 분야 최고 행사인 ICDAR 2023에서 텐센트 OCR팀은 자체 개발 알고리즘을 바탕으로 4회 연속 우승을 차지하며 2017년부터 4회 연속 좋은 성적을 거뒀다. 2019년, 2021년. 총 18개의 공식 인증 챔피언십을 획득하여 Tencent의 OCR 기술의 세계적 수준을 입증했습니다.
ICDAR 컨퍼런스는 글로벌 문서 이미지 분석 및 인식 분야에서 권위를 인정받는 학술 컨퍼런스로, 2년마다 개최되며, 100여 개국에서 약 8,000개 팀이 참가했습니다. ICDAR 대회는 기술적인 난이도가 매우 높고 실용성이 뛰어나다는 점에서 국내외적으로 잘 알려져 있다. ICDAR가 공식 인증한 공식 대회는 경기 후 비공식 순위를 매기는 것과 달리 새로운 데이터 세트와 참가팀의 정보 및 정보를 활용한다. 대회 중에는 결과가 발표되지 않습니다. 결과 제출 시간과 횟수가 제한되어 있지만 "블라인드 타이핑"은 매우 어렵습니다.
올해 Tencent OCR 팀은 Tencent 데이터 플랫폼 부서와 WeChat 기술 아키텍처 부서로 공동으로 구성되었습니다. DSText(Dense Small Text Video Text Recognition)와 SVRD(Structured Information Extraction)라는 두 가지 주요 대회에 참가하는 데 중점을 두었습니다. A트랙 4관왕을 달성했습니다.
DSText(Dense Small Text Video Text Recognition) 대회는 비디오 텍스트 추적과 비디오 텍스트 엔드투엔드 인식이라는 두 가지 작업을 설정했습니다. 텍스트가 매우 조밀하고 매우 작기 때문에 환경 간섭(카메라 흔들림, 모션 블러, 조명 변화 등)과 후편집(멀티 렌즈 화면 자르기, 인공 배경, 게임 인터페이스 전환 등)이 결합되어 있습니다. 비디오 프레임에서 정확하게 감지하고 추적하기가 어렵습니다. 텍스트를 인식하려면 알고리즘의 높은 견고성이 필요하며 매우 어렵습니다. 일부 대회 영상 프레임은 다음과 같습니다.
ICDAR-DSText 대회 개요 프레임
DSText 대회의 두 가지 과제 모두에서 Tencent OCR 팀이 절대적인 선두로 우승을 차지했습니다.
그 중 작업 1은 비디오의 모든 텍스트 스트림을 추적하고 비디오 프레임 간에 동일한 텍스트 인스턴스에 속하는 감지 프레임을 집계하는 것을 목표로 하며, 평가 지표는 MOTA가 12.04%로 2위를 차지합니다.
비디오 텍스트 추적: 챔피언십 인증서
11.93% 차이로 2위로 선두를 달리며 우승을 차지했습니다.
비디오 텍스트 엔드투엔드 인식: 우승 인증서
SVRD(구조적 정보 추출) 대회에는 HUST-CELL과 BAIDU-FEST라는 두 가지 주요 트랙이 포함됩니다. 4가지 작업: 복잡한 문서 개체 관계 추출(E2E Complex Entity Linking), 복잡한 문서 개체 의미 추출(E2E Complex Entity Labeling), 제로샷 구조화된 정보 추출(E2E Zero-shot Structured Text Extraction) 및 소규모 샘플 구조화된 정보 추출( 퓨샷 구조화된 텍스트 추출). 문서 이미지의 복잡한 레이아웃과 다양한 구조, 자연 장면 이미지의 불규칙한 수집, 복잡한 배경, 파손, 휘어짐, 변형 및 기타 문제로 인해 경쟁이 매우 어렵습니다. 일부 대회 사진은 다음과 같습니다.
위 내용은 Tencent OCR 팀이 ICDAR 대회에서 4번의 우승을 차지했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!