Llama 3.2-Vision は、11B および 90B サイズで利用可能なマルチモーダル大規模言語モデルで、テキストと画像の両方の入力を処理してテキスト出力を生成できます。このモデルは、視覚認識、画像推論、画像説明、画像関連の質問への回答に優れており、複数の業界ベンチマークにわたって既存のオープンソースおよびクローズドソースのマルチモーダル モデルを上回ります。
この記事では、Ollama によって実行される Llama 3.2-Vision 11B モデリング サービスを呼び出し、Ollama-OCR を使用して画像テキスト認識 (OCR) 機能を実装する方法について説明します。
? Llama 3.2-Visionモデルを使用した高精度テキスト認識
?元のテキストの書式設定と構造を保持します
?️ 複数の画像形式をサポート: JPG、JPEG、PNG
⚡️ カスタマイズ可能な認識プロンプトとモデル
?マークダウン出力形式オプション
?堅牢なエラー処理
Llama 3.2-Vision の使用を開始する前に、ローカルでのマルチモーダル モデルの実行をサポートするプラットフォームである Ollama をインストールする必要があります。以下の手順に従ってインストールしてください:
Ollama をインストールした後、次のコマンドを使用して Llama 3.2-Vision 11B モデルをインストールできます。
ollama run llama3.2-vision
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
コード
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
入力画像:
出力:
マルチモーダル大規模言語モデル (LLM) の Llama 3.2-Vision コレクションは、118 および 908 サイズ (テキスト画像入力/テキスト出力) の命令調整された画像推論生成モデルのコレクションです。 Llama 3.2-Vision の命令調整モデルは、視覚認識、画像推論、キャプション付け、および画像に関する一般的な質問への回答用に最適化されています。このモデルは、一般的な業界ベンチマークにおいて、利用可能なオープンソース モデルやクローズド マルチモーダル モデルの多くを上回ります。
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
入力画像:
出力:
ollama-ocr はローカル ビジョン モデルを使用しています。オンラインの Llama 3.2-Vision モデルを使用したい場合は、llama-ocr ライブラリを試してください。
以上がOllama を使用した高精度 OCR のための Ollama-OCRの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。