Ollama を使用した高精度 OCR のための Ollama-OCR

Linda Hamilton
リリース: 2024-11-27 08:16:09
オリジナル
240 人が閲覧しました

Llama 3.2-Vision は、11B および 90B サイズで利用可能なマルチモーダル大規模言語モデルで、テキストと画像の両方の入力を処理してテキスト出力を生成できます。このモデルは、視覚認識、画像推論、画像説明、画像関連の質問への回答に優れており、複数の業界ベンチマークにわたって既存のオープンソースおよびクローズドソースのマルチモーダル モデルを上回ります。

Llama 3.2-ビジョンの例

手書き

Ollama-OCR for High-Precision OCR with Ollama

光学式文字認識 (OCR)

Ollama-OCR for High-Precision OCR with Ollama

この記事では、Ollama によって実行される Llama 3.2-Vision 11B モデリング サービスを呼び出し、Ollama-OCR を使用して画像テキスト認識 (OCR) 機能を実装する方法について説明します。

Ollama-OCRの特徴

? Llama 3.2-Visionモデルを使用した高精度テキスト認識
?元のテキストの書式設定と構造を保持します
?️ 複数の画像形式をサポート: JPG、JPEG、PNG
⚡️ カスタマイズ可能な認識プロンプトとモデル
?マークダウン出力形式オプション
?堅牢なエラー処理

オラマのインストール

Llama 3.2-Vision の使用を開始する前に、ローカルでのマルチモーダル モデルの実行をサポートするプラットフォームである Ollama をインストールする必要があります。以下の手順に従ってインストールしてください:

  1. Ollama をダウンロード: Ollama の公式 Web サイトにアクセスして、オペレーティング システム用のインストール パッケージをダウンロードします。 Ollama-OCR for High-Precision OCR with Ollama
  2. Ollama をインストールします。プロンプトに従って、ダウンロードしたインストール パッケージに従ってインストールを完了します。

Llama 3.2-Vision 11B をインストールする

Ollama をインストールした後、次のコマンドを使用して Llama 3.2-Vision 11B モデルをインストールできます。

ollama run llama3.2-vision
ログイン後にコピー

Ollama-OCR の使用方法

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr
ログイン後にコピー

OCR

コード

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}
ログイン後にコピー

入力画像:

Ollama-OCR for High-Precision OCR with Ollama

出力:
マルチモーダル大規模言語モデル (LLM) の Llama 3.2-Vision コレクションは、118 および 908 サイズ (テキスト画像入力/テキスト出力) の命令調整された画像推論生成モデルのコレクションです。 Llama 3.2-Vision の命令調整モデルは、視覚認識、画像推論、キャプション付け、および画像に関する一般的な質問への回答用に最適化されています。このモデルは、一般的な業界ベンチマークにおいて、利用可能なオープンソース モデルやクローズド マルチモーダル モデルの多くを上回ります。

2. マークダウン出力

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}
ログイン後にコピー

入力画像:

Ollama-OCR for High-Precision OCR with Ollama

出力:

Ollama-OCR for High-Precision OCR with Ollama

ollama-ocr はローカル ビジョン モデルを使用しています。オンラインの Llama 3.2-Vision モデルを使用したい場合は、llama-ocr ライブラリを試してください。

以上がOllama を使用した高精度 OCR のための Ollama-OCRの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:dev.to
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート