TROCR 및 ZHEN LATEX OCR
이미지-텍스트 모델의 힘 탐색 : Trocr and Zhen Latex OCR
AI의 세계는 언어 모델과 가상 지원 및 컨텐츠 생성에 응용 프로그램을 가지고 있습니다. 그러나 광학 문자 인식 (OCR)으로 구동되는 이미지 간 텍스트 변환 분야는 흥미로운 가능성을 제공합니다. 이 기사는 두 가지 강력한 이미지-텍스트 모델 인 Trocr과 Zhen Latex OCR을 탐구하여 고유 한 강점과 응용 프로그램을 강조합니다.
학습 목표 :
- Trocr 및 Zhen Latex OCR의 최적 사용 사례를 이해하십시오.
- 기본 아키텍처에 대한 통찰력을 얻으십시오.
- 이러한 모델에 대한 추론을 수행하고 실제 응용 프로그램을 탐색하십시오.
- 이러한 강력한 도구의 실제 사용을 인식하십시오.
(이 기사는 데이터 과학 블로그의 일부입니다.)
목차 :
- trocr : 이미지-텍스트를위한 인코더 디코더 모델
- 대형 건축
- Zhen Latex OCR 소개
- Trocr vs. Zhen Latex OCR : 비교
- Tracry 사용 : 단계적 단계 가이드
- 수학 및 라텍스 이미지 인식을 위해 Zhen Latex OCR 사용
- 향후 개선 및 향상
- OCR의 실제 응용 프로그램
- 자주 묻는 질문
trocr : 이미지-텍스트를위한 인코더 디코더 모델
TROCR (전통적인 기반 광학 문자 인식)은 이미지-텍스트 변환을위한 시퀀스-시퀀스 메커니즘을 활용하는 인코더 디코더 모델입니다. 이미지 변압기 (인코더)와 텍스트 변압기 (디코더)가 특징입니다. TRACR 모델은 일반적으로 합성 적으로 생성 된 인쇄 된 텍스트 이미지의 방대한 데이터 세트에서 미리 훈련 된 다음 IAM 필기 텍스트 및 SROIE 인쇄 영수증과 같은 데이터 세트에서 미세 조정되어 Track-Small-Sroie, Troc-Base-Sroie 및 TroC-Large-Sroie와 같은 변형이 발생합니다.
대형 건축
CNN 및 RNN에 의존하는 전통적인 OCR 모델과 달리 TROCR은 비전 및 언어 변압기 아키텍처를 사용합니다. 인코더는 이미지를 처리하여 패치로 나누고 멀티 헤드주의 및 피드 포워드 블록을 사용하여 이미지 임베딩을 생성합니다. 그런 다음 디코더는 이러한 임베딩을 처리하여 인코딩 된 텍스트 출력을 생성하며, 이는 최종적으로 읽을 수있는 텍스트로 디코딩됩니다. 이미지는 고정 크기 패치에 미리 처리됩니다 (예 : 16x16).
Zhen Latex OCR 소개
MixTex의 오픈 소스 모델 인 Zhen Latex OCR은 수학 공식 및 텍스트의 이미지를 라텍스 코드로 변환하는 것을 전문으로하는 또 다른 강력한 인코더 디코더 모델입니다. 복잡한 라텍스 수학 공식, 테이블을 정확하게 인식하고 단일 이미지 내에서 단어, 텍스트, 공식 및 테이블을 구분합니다. 영어와 중국어에 대한 이중 언어 지원을 제공합니다.
Trocr vs. Zhen Latex OCR : 비교
TROCR은 단일 라인 텍스트 이미지를 처리하는 데 탁월하며 다른 OCR 모델에 비해 속도 이점이 있습니다. 그러나 Zhen Latex OCR은 수학 공식과 라텍스 코드를 처리하는 능력이 빛나며 연구원과 학업을위한 귀중한 도구를 제공합니다. 라텍스 입력을위한 다른 도구가 존재하지만 Zhen Latex OCR은 편리하고 효율적인 대안을 제공합니다.
Tracry 사용 : 단계적 단계 가이드
SROIE 데이터 세트와 함께 미세 조정 된 TROCL 모델을 사용하여 시연합니다.
1 단계 : 라이브러리 가져 오기
변압기에서 VisionEncoderdecodermodel, Traverprocessor를 가져옵니다 PIL 가져 오기 이미지에서 가져 오기 요청
2 단계 : 이미지로드
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg' image = image.open (requests.get (url, stream = true) .raw) .convert ( "rgb")
3 단계 : TRACR 모델 초기화
프로세서 = trocrprocessor.from_pretraind ( 'Microsoft/Troc-Base Printed') Model = VisionEncoderDecoderModel.from_pretrained ( 'Microsoft/Troc-Base Printed') pixel_values = processor (images = image, return_tensors = "pt"). pixel_values
4 단계 : 텍스트 생성
generated_ids = model.generate (pixel_values) generated_text = processor.batch_decode (generated_ids, skip_special_tokens = true) [0] print (generated_text.lower ()) # 소문자의 출력
수학 및 라텍스 이미지 인식을 위해 Zhen Latex OCR 사용
Zhen Latex OCR을 사용하는 간단한 예는 다음과 같습니다.
1 단계 : 라이브러리 가져 오기
변압기에서 Autotokenizer, VisionEncoderdecodermodel, AutoimageProcessor를 가져옵니다 PIL 가져 오기 이미지에서 가져 오기 요청 feaction_extractor = autoimageProcessor.from_pretrained ( "mixtex/zhen-latex-acroc") Tokenizer = autotokenizer.from_pretrained ( "MixTex/Zhen-latex-Aroc", max_len = 296) Model = VisionEncoderDecoderModel.from_pretrained ( "MixTex/Zhen-Latex-Aroc")
2 단계 : 라텍스 처리 및 생성
imgen = image.open (requests.get ( 'https://cdn-upload.huggingface.co/production/uploads/62dbaade36292040577d2d4f/eoaym7fzdsjc_8ptsc-h.png', stream = true) .Raw). al 인쇄 (Latex_output)
향후 개선 및 향상
두 모델 모두 개선의 여지가 있습니다. TROCR은 자연 장면의 곡선 텍스트 및 이미지의 향상된 처리로부터 이익을 얻을 수 있습니다. Zhen Latex OCR은 필기 수학 공식과 더 복잡한 테이블을 지원하기 위해 확장 할 수 있습니다.
OCR의 실제 응용 프로그램
OCR 모델은 다양한 부문에서 광범위한 응용 프로그램을 찾습니다.
- 금융 : 재무 문서에서 데이터 추출 자동화.
- 건강 관리 : 환자 기록 및 처방전 디지털화.
- 정부 : 문서 처리 및 기록 유지 간소화.
결론
TROCR 및 ZHEN LATEX OCR은 이미지-텍스트 기술의 상당한 발전을 나타냅니다. 그들의 강점과 한계를 이해함으로써, 우리는 이러한 강력한 도구를 활용하여 수많은 산업에서 실제 문제를 해결할 수 있습니다.
주요 테이크 아웃 :
- Trocr는 단일 라인 텍스트 인식으로 탁월합니다.
- Zhen Latex OCR은 수학 공식 및 라텍스 코드를 전문으로합니다.
- 특정 요구에 따라 모델 선택 최적화는 최적의 결과에 중요합니다.
자주 묻는 질문
Q1 : Trocr와 Zhen Latex OCR의 주요 차이점은 무엇입니까? Trocr는 일반 텍스트 추출에 중점을두고 Zhen Latex OCR은 수학 공식과 라텍스를 전문으로합니다.
Q2 : 언제 Tracroc 대신 Zhen Latex OCR을 사용해야합니까? 수학적 방정식 또는 라텍스 코드를 처리 할 때 Zhen Latex OCR을 사용하십시오. 그렇지 않으면 TROCR이 적합합니다.
Q3 : Zhen Latex OCR이 필기 방정식을 처리 할 수 있습니까? 현재는 아니지만 향후 개선이이를 해결할 수 있습니다.
Q4 : 어떤 산업이 OCR에서 가장 큰 혜택을 받습니까? 금융, 의료 및 정부는 주요 수혜자 중 하나입니다.
(참고 :이 기사에 사용 된 이미지는 저자가 소유하지 않으며 허가를 받아 사용됩니다.)
위 내용은 TROCR 및 ZHEN LATEX OCR의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

이 기사는 Chatgpt, Gemini 및 Claude와 같은 최고의 AI 챗봇을 비교하여 고유 한 기능, 사용자 정의 옵션 및 자연어 처리 및 신뢰성의 성능에 중점을 둡니다.

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

이 기사는 Grammarly, Jasper, Copy.ai, Writesonic 및 Rytr와 같은 최고의 AI 작문 조수에 대해 논의하여 콘텐츠 제작을위한 독특한 기능에 중점을 둡니다. Jasper는 SEO 최적화가 뛰어나고 AI 도구는 톤 구성을 유지하는 데 도움이된다고 주장합니다.

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

이 기사는 Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson 및 Destript와 같은 최고의 AI 음성 생성기를 검토하여 기능, 음성 품질 및 다양한 요구에 대한 적합성에 중점을 둡니다.
