Llama 3.2-Vision 是多模態大語言模型,提供 11B 和 90B 尺寸,能夠處理文字和圖像輸入以產生文字輸出。該模型在視覺識別、圖像推理、圖像描述和回答圖像相關問題方面表現出色,在多個行業基準上優於現有的開源和閉源多模態模型。
在本文中,我將介紹如何呼叫 Ollama 運行的 Llama 3.2-Vision 11B 建模服務,並使用 Ollama-OCR 實現圖像文字辨識 (OCR) 功能。
?使用 Llama 3.2-Vision 模型進行高精準度文字辨識
?保留原始文字格式和結構
?️支援多種圖片格式:JPG、JPEG、PNG
⚡️可自訂的識別提示和模型
? Markdown 輸出格式選項
?強大的錯誤處理
在開始使用 Llama 3.2-Vision 之前,您需要安裝 Ollama,一個支援本地運行多模態模型的平台。請依照以下步驟安裝:
安裝 Ollama 後,您可以使用以下指令安裝 Llama 3.2-Vision 11B 模型:
ollama run llama3.2-vision
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
代碼
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
輸入影像:
輸出:
Llama 3.2-Vision 多模態大語言模型 (LLM) 集合是一個經過指令調整的圖像推理生成模型集合,具有 118 和 908 尺寸(文字圖像輸入/文字輸出)。 Llama 3.2-Vision 指令調整模型針對視覺辨識、影像推理、字幕和回答有關影像的一般問題進行了最佳化。這些模型在常見行業基準上優於許多可用的開源和封閉多模式模型。
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
輸入圖片:
輸出:
ollama-ocr 使用本地視覺模型,如果您想使用線上 Llama 3.2-Vision 模型,請嘗試 llama-ocr 庫。
以上是Ollama-OCR 使用 Ollama 進行高精度 OCR的詳細內容。更多資訊請關注PHP中文網其他相關文章!