Ollama를 사용한 고정밀 OCR용 Ollama-OCR-JS 튜토리얼-php.cn

집

웹 프론트엔드

JS 튜토리얼

Ollama를 사용한 고정밀 OCR용 Ollama-OCR

Linda Hamilton

Nov 27, 2024 am 08:16 AM

Llama 3.2-Vision은 11B 및 90B 크기로 제공되는 다중 모드 대형 언어 모델로, 텍스트 및 이미지 입력을 모두 처리하여 텍스트 출력을 생성할 수 있습니다. 이 모델은 시각적 인식, 이미지 추론, 이미지 설명 및 이미지 관련 질문에 대한 답변에 탁월하며 여러 업계 벤치마크에서 기존 오픈 소스 및 폐쇄 소스 다중 모달 모델을 능가합니다.

라마 3.2-시현 예

필적

Ollama-OCR for High-Precision OCR with Ollama

광학 문자 인식(OCR)

Ollama-OCR for High-Precision OCR with Ollama

이 기사에서는 Ollama가 운영하는 Llama 3.2-Vision 11B 모델링 서비스를 호출하고 Ollama-OCR을 사용하여 이미지 텍스트 인식(OCR) 기능을 구현하는 방법을 설명합니다.

Ollama-OCR의 특징

? Llama 3.2-Vision 모델을 사용한 고정밀 텍스트 인식
? 원본 텍스트 형식과 구조를 유지합니다
?️ 다양한 이미지 형식 지원: JPG, JPEG, PNG
⚡️ 맞춤형 인식 프롬프트 및 모델
? 마크다운 출력 형식 옵션
? 강력한 오류 처리

올라마 설치

Llama 3.2-Vision을 사용하기 전에 로컬에서 멀티모달 모델 실행을 지원하는 플랫폼인 Ollama를 설치해야 합니다. 설치하려면 아래 단계를 따르세요.

Ollama 다운로드: Ollama 공식 웹사이트를 방문하여 운영 체제에 맞는 설치 패키지를 다운로드하세요.
Ollama 설치: 다운로드한 설치 패키지에 따라 지시에 따라 설치를 완료합니다.

라마 3.2-Vision 11B 설치

Ollama를 설치한 후 다음 명령을 사용하여 Llama 3.2-Vision 11B 모델을 설치할 수 있습니다.

ollama run llama3.2-vision

로그인 후 복사

Ollama-OCR 사용 방법

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

로그인 후 복사

OCR

코드

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

로그인 후 복사

입력 이미지:

Ollama-OCR for High-Precision OCR with Ollama

출력：
다중 모드 대형 언어 모델(LLM)의 Llama 3.2-Vision 컬렉션은 118 및 908 크기(텍스트 이미지 입력/텍스트 출력)의 명령 조정 이미지 추론 생성 모델 컬렉션입니다. Llama 3.2-Vision 지침 조정 모델은 시각적 인식, 이미지 추론, 캡션 작성 및 이미지에 대한 일반적인 질문에 대한 답변에 최적화되어 있습니다. 이 모델은 일반적인 업계 벤치마크에서 사용 가능한 여러 오픈 소스 및 폐쇄형 다중 모드 모델보다 성능이 뛰어납니다.

2. 마크다운 출력

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

로그인 후 복사

입력 이미지：

Ollama-OCR for High-Precision OCR with Ollama

출력:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr은 로컬 비전 모델을 사용하고 있습니다. 온라인 Llama 3.2-Vision 모델을 사용하려면 llama-ocr 라이브러리를 사용해 보세요.

위 내용은 Ollama를 사용한 고정밀 OCR용 Ollama-OCR의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1671

Cakephp 튜토리얼

1428

라라벨 튜토리얼

1331

PHP 튜토리얼

1276

C# 튜토리얼

1256

Related knowledge

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

C/C에서 JavaScript까지 : 모든 것이 어떻게 작동하는지 Apr 14, 2025 am 12:05 AM

C/C에서 JavaScript로 전환하려면 동적 타이핑, 쓰레기 수집 및 비동기 프로그래밍으로 적응해야합니다. 1) C/C는 수동 메모리 관리가 필요한 정적으로 입력 한 언어이며 JavaScript는 동적으로 입력하고 쓰레기 수집이 자동으로 처리됩니다. 2) C/C를 기계 코드로 컴파일 해야하는 반면 JavaScript는 해석 된 언어입니다. 3) JavaScript는 폐쇄, 프로토 타입 체인 및 약속과 같은 개념을 소개하여 유연성과 비동기 프로그래밍 기능을 향상시킵니다.

JavaScript 및 웹 : 핵심 기능 및 사용 사례 Apr 18, 2025 am 12:19 AM

웹 개발에서 JavaScript의 주요 용도에는 클라이언트 상호 작용, 양식 검증 및 비동기 통신이 포함됩니다. 1) DOM 운영을 통한 동적 컨텐츠 업데이트 및 사용자 상호 작용; 2) 사용자가 사용자 경험을 향상시키기 위해 데이터를 제출하기 전에 클라이언트 확인이 수행됩니다. 3) 서버와의 진실한 통신은 Ajax 기술을 통해 달성됩니다.

자바 스크립트 행동 : 실제 예제 및 프로젝트 Apr 19, 2025 am 12:13 AM

실제 세계에서 JavaScript의 응용 프로그램에는 프론트 엔드 및 백엔드 개발이 포함됩니다. 1) DOM 운영 및 이벤트 처리와 관련된 TODO 목록 응용 프로그램을 구축하여 프론트 엔드 애플리케이션을 표시합니다. 2) Node.js를 통해 RESTFULAPI를 구축하고 Express를 통해 백엔드 응용 프로그램을 시연하십시오.

JavaScript 엔진 이해 : 구현 세부 사항 Apr 17, 2025 am 12:05 AM

보다 효율적인 코드를 작성하고 성능 병목 현상 및 최적화 전략을 이해하는 데 도움이되기 때문에 JavaScript 엔진이 내부적으로 작동하는 방식을 이해하는 것은 개발자에게 중요합니다. 1) 엔진의 워크 플로에는 구문 분석, 컴파일 및 실행; 2) 실행 프로세스 중에 엔진은 인라인 캐시 및 숨겨진 클래스와 같은 동적 최적화를 수행합니다. 3) 모범 사례에는 글로벌 변수를 피하고 루프 최적화, Const 및 Lets 사용 및 과도한 폐쇄 사용을 피하는 것이 포함됩니다.

Python vs. JavaScript : 커뮤니티, 라이브러리 및 리소스 Apr 15, 2025 am 12:16 AM

Python과 JavaScript는 커뮤니티, 라이브러리 및 리소스 측면에서 고유 한 장점과 단점이 있습니다. 1) Python 커뮤니티는 친절하고 초보자에게 적합하지만 프론트 엔드 개발 리소스는 JavaScript만큼 풍부하지 않습니다. 2) Python은 데이터 과학 및 기계 학습 라이브러리에서 강력하며 JavaScript는 프론트 엔드 개발 라이브러리 및 프레임 워크에서 더 좋습니다. 3) 둘 다 풍부한 학습 리소스를 가지고 있지만 Python은 공식 문서로 시작하는 데 적합하지만 JavaScript는 MDNWebDocs에서 더 좋습니다. 선택은 프로젝트 요구와 개인적인 이익을 기반으로해야합니다.

Python vs. JavaScript : 개발 환경 및 도구 Apr 26, 2025 am 12:09 AM

개발 환경에서 Python과 JavaScript의 선택이 모두 중요합니다. 1) Python의 개발 환경에는 Pycharm, Jupyternotebook 및 Anaconda가 포함되어 있으며 데이터 과학 및 빠른 프로토 타이핑에 적합합니다. 2) JavaScript의 개발 환경에는 Node.js, VScode 및 Webpack이 포함되어 있으며 프론트 엔드 및 백엔드 개발에 적합합니다. 프로젝트 요구에 따라 올바른 도구를 선택하면 개발 효율성과 프로젝트 성공률이 향상 될 수 있습니다.

JavaScript 통역사 및 컴파일러에서 C/C의 역할 Apr 20, 2025 am 12:01 AM

C와 C는 주로 통역사와 JIT 컴파일러를 구현하는 데 사용되는 JavaScript 엔진에서 중요한 역할을합니다. 1) C는 JavaScript 소스 코드를 구문 분석하고 추상 구문 트리를 생성하는 데 사용됩니다. 2) C는 바이트 코드 생성 및 실행을 담당합니다. 3) C는 JIT 컴파일러를 구현하고 런타임에 핫스팟 코드를 최적화하고 컴파일하며 JavaScript의 실행 효율을 크게 향상시킵니다.

See all articles

Ollama를 사용한 고정밀 OCR용 Ollama-OCR

라마 3.2-시현 예

필적

광학 문자 인식(OCR)

Ollama-OCR의 특징

올라마 설치

라마 3.2-Vision 11B 설치

Ollama-OCR 사용 방법

OCR

2. 마크다운 출력

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제