TROCR 및 ZHEN LATEX OCR-일체 포함-php.cn

집

기술 주변기기

일체 포함

TROCR 및 ZHEN LATEX OCR

Jennifer Aniston

Apr 14, 2025 am 09:59 AM

이미지-텍스트 모델의 힘 탐색 : Trocr and Zhen Latex OCR

AI의 세계는 언어 모델과 가상 지원 및 컨텐츠 생성에 응용 프로그램을 가지고 있습니다. 그러나 광학 문자 인식 (OCR)으로 구동되는 이미지 간 텍스트 변환 분야는 흥미로운 가능성을 제공합니다. 이 기사는 두 가지 강력한 이미지-텍스트 모델 인 Trocr과 Zhen Latex OCR을 탐구하여 고유 한 강점과 응용 프로그램을 강조합니다.

학습 목표 :

Trocr 및 Zhen Latex OCR의 최적 사용 사례를 이해하십시오.
기본 아키텍처에 대한 통찰력을 얻으십시오.
이러한 모델에 대한 추론을 수행하고 실제 응용 프로그램을 탐색하십시오.
이러한 강력한 도구의 실제 사용을 인식하십시오.

(이 기사는 데이터 과학 블로그의 일부입니다.)

목차 :

trocr : 이미지-텍스트를위한 인코더 디코더 모델
대형 건축
Zhen Latex OCR 소개
Trocr vs. Zhen Latex OCR : 비교
Tracry 사용 : 단계적 단계 가이드
수학 및 라텍스 이미지 인식을 위해 Zhen Latex OCR 사용
향후 개선 및 향상
OCR의 실제 응용 프로그램
자주 묻는 질문

trocr : 이미지-텍스트를위한 인코더 디코더 모델

TROCR (전통적인 기반 광학 문자 인식)은 이미지-텍스트 변환을위한 시퀀스-시퀀스 메커니즘을 활용하는 인코더 디코더 모델입니다. 이미지 변압기 (인코더)와 텍스트 변압기 (디코더)가 특징입니다. TRACR 모델은 일반적으로 합성 적으로 생성 된 인쇄 된 텍스트 이미지의 방대한 데이터 세트에서 미리 훈련 된 다음 IAM 필기 텍스트 및 SROIE 인쇄 영수증과 같은 데이터 세트에서 미세 조정되어 Track-Small-Sroie, Troc-Base-Sroie 및 TroC-Large-Sroie와 같은 변형이 발생합니다.

TROCR 및 ZHEN LATEX OCR

대형 건축

CNN 및 RNN에 의존하는 전통적인 OCR 모델과 달리 TROCR은 비전 및 언어 변압기 아키텍처를 사용합니다. 인코더는 이미지를 처리하여 패치로 나누고 멀티 헤드주의 및 피드 포워드 블록을 사용하여 이미지 임베딩을 생성합니다. 그런 다음 디코더는 이러한 임베딩을 처리하여 인코딩 된 텍스트 출력을 생성하며, 이는 최종적으로 읽을 수있는 텍스트로 디코딩됩니다. 이미지는 고정 크기 패치에 미리 처리됩니다 (예 : 16x16).

Zhen Latex OCR 소개

MixTex의 오픈 소스 모델 인 Zhen Latex OCR은 수학 공식 및 텍스트의 이미지를 라텍스 코드로 변환하는 것을 전문으로하는 또 다른 강력한 인코더 디코더 모델입니다. 복잡한 라텍스 수학 공식, 테이블을 정확하게 인식하고 단일 이미지 내에서 단어, 텍스트, 공식 및 테이블을 구분합니다. 영어와 중국어에 대한 이중 언어 지원을 제공합니다.

TROCR 및 ZHEN LATEX OCR

Trocr vs. Zhen Latex OCR : 비교

TROCR은 단일 라인 텍스트 이미지를 처리하는 데 탁월하며 다른 OCR 모델에 비해 속도 이점이 있습니다. 그러나 Zhen Latex OCR은 수학 공식과 라텍스 코드를 처리하는 능력이 빛나며 연구원과 학업을위한 귀중한 도구를 제공합니다. 라텍스 입력을위한 다른 도구가 존재하지만 Zhen Latex OCR은 편리하고 효율적인 대안을 제공합니다.

Tracry 사용 : 단계적 단계 가이드

SROIE 데이터 세트와 함께 미세 조정 된 TROCL 모델을 사용하여 시연합니다.

1 단계 : 라이브러리 가져 오기

 변압기에서 VisionEncoderdecodermodel, Traverprocessor를 가져옵니다
PIL 가져 오기 이미지에서
가져 오기 요청

로그인 후 복사

2 단계 : 이미지로드

 url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = image.open (requests.get (url, stream = true) .raw) .convert ( "rgb")

로그인 후 복사

3 단계 : TRACR 모델 초기화

 프로세서 = trocrprocessor.from_pretraind ( 'Microsoft/Troc-Base Printed')
Model = VisionEncoderDecoderModel.from_pretrained ( 'Microsoft/Troc-Base Printed')
pixel_values = processor (images = image, return_tensors = "pt"). pixel_values

로그인 후 복사

4 단계 : 텍스트 생성

 generated_ids = model.generate (pixel_values)
generated_text = processor.batch_decode (generated_ids, skip_special_tokens = true) [0]
print (generated_text.lower ()) # 소문자의 출력

로그인 후 복사

TROCR 및 ZHEN LATEX OCR

수학 및 라텍스 이미지 인식을 위해 Zhen Latex OCR 사용

Zhen Latex OCR을 사용하는 간단한 예는 다음과 같습니다.

1 단계 : 라이브러리 가져 오기

 변압기에서 Autotokenizer, VisionEncoderdecodermodel, AutoimageProcessor를 가져옵니다
PIL 가져 오기 이미지에서
가져 오기 요청

feaction_extractor = autoimageProcessor.from_pretrained ( "mixtex/zhen-latex-acroc")
Tokenizer = autotokenizer.from_pretrained ( "MixTex/Zhen-latex-Aroc", max_len = 296)
Model = VisionEncoderDecoderModel.from_pretrained ( "MixTex/Zhen-Latex-Aroc")

로그인 후 복사

2 단계 : 라텍스 처리 및 생성

 imgen = image.open (requests.get ( 'https://cdn-upload.huggingface.co/production/uploads/62dbaade36292040577d2d4f/eoaym7fzdsjc_8ptsc-h.png', stream = true) .Raw).
al
인쇄 (Latex_output)

로그인 후 복사

TROCR 및 ZHEN LATEX OCR

향후 개선 및 향상

두 모델 모두 개선의 여지가 있습니다. TROCR은 자연 장면의 곡선 텍스트 및 이미지의 향상된 처리로부터 이익을 얻을 수 있습니다. Zhen Latex OCR은 필기 수학 공식과 더 복잡한 테이블을 지원하기 위해 확장 할 수 있습니다.

OCR의 실제 응용 프로그램

OCR 모델은 다양한 부문에서 광범위한 응용 프로그램을 찾습니다.

금융 : 재무 문서에서 데이터 추출 자동화.
건강 관리 : 환자 기록 및 처방전 디지털화.
정부 : 문서 처리 및 기록 유지 간소화.

결론

TROCR 및 ZHEN LATEX OCR은 이미지-텍스트 기술의 상당한 발전을 나타냅니다. 그들의 강점과 한계를 이해함으로써, 우리는 이러한 강력한 도구를 활용하여 수많은 산업에서 실제 문제를 해결할 수 있습니다.

주요 테이크 아웃 :

Trocr는 단일 라인 텍스트 인식으로 탁월합니다.
Zhen Latex OCR은 수학 공식 및 라텍스 코드를 전문으로합니다.
특정 요구에 따라 모델 선택 최적화는 최적의 결과에 중요합니다.

자주 묻는 질문

Q1 : Trocr와 Zhen Latex OCR의 주요 차이점은 무엇입니까? Trocr는 일반 텍스트 추출에 중점을두고 Zhen Latex OCR은 수학 공식과 라텍스를 전문으로합니다.

Q2 : 언제 Tracroc 대신 Zhen Latex OCR을 사용해야합니까? 수학적 방정식 또는 라텍스 코드를 처리 할 때 Zhen Latex OCR을 사용하십시오. 그렇지 않으면 TROCR이 적합합니다.

Q3 : Zhen Latex OCR이 필기 방정식을 처리 할 수 있습니까? 현재는 아니지만 향후 개선이이를 해결할 수 있습니다.

Q4 : 어떤 산업이 OCR에서 가장 큰 혜택을 받습니까? 금융, 의료 및 정부는 주요 수혜자 중 하나입니다.

(참고 :이 기사에 사용 된 이미지는 저자가 소유하지 않으며 허가를 받아 사용됩니다.)

위 내용은 TROCR 및 ZHEN LATEX OCR의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7909

자바 튜토리얼

1652

Cakephp 튜토리얼

1411

라라벨 튜토리얼

1303

PHP 튜토리얼

1248

Related knowledge

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

Meta Llama 3.2- 분석 Vidhya를 시작합니다 Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

최고의 AI 챗봇 비교 (Chatgpt, Gemini, Claude & amp; more) Apr 02, 2025 pm 06:09 PM

이 기사는 Chatgpt, Gemini 및 Claude와 같은 최고의 AI 챗봇을 비교하여 고유 한 기능, 사용자 정의 옵션 및 자연어 처리 및 신뢰성의 성능에 중점을 둡니다.

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - &#8217

컨텐츠 생성을 향상시키기 위해 AI를 쓰는 최고 AI 작문 Apr 02, 2025 pm 06:11 PM

이 기사는 Grammarly, Jasper, Copy.ai, Writesonic 및 Rytr와 같은 최고의 AI 작문 조수에 대해 논의하여 콘텐츠 제작을위한 독특한 기능에 중점을 둡니다. Jasper는 SEO 최적화가 뛰어나고 AI 도구는 톤 구성을 유지하는 데 도움이된다고 주장합니다.