Llama 3.2-Vision est un grand modèle de langage multimodal disponible en tailles 11B et 90B, capable de traiter à la fois les entrées de texte et d'image pour générer des sorties de texte. Le modèle excelle dans la reconnaissance visuelle, le raisonnement d'image, la description d'image et la réponse aux questions liées à l'image, surpassant les modèles multimodaux open source et fermés existants dans plusieurs références industrielles.
Dans cet article, je vais décrire comment appeler le service de modélisation Llama 3.2-Vision 11B géré par Ollama et implémenter la fonctionnalité de reconnaissance de texte d'image (OCR) à l'aide d'Ollama-OCR.
? Reconnaissance de texte de haute précision à l'aide du modèle Llama 3.2-Vision
? Préserve la mise en forme et la structure du texte d'origine
?️ Prend en charge plusieurs formats d'image : JPG, JPEG, PNG
⚡️ Invites et modèles de reconnaissance personnalisables
? Option de format de sortie Markdown
? Gestion robuste des erreurs
Avant de pouvoir commencer à utiliser Llama 3.2-Vision, vous devez installer Ollama, une plate-forme qui prend en charge l'exécution de modèles multimodaux localement. Suivez les étapes ci-dessous pour l'installer :
Après avoir installé Ollama, vous pouvez installer le modèle Llama 3.2-Vision 11B avec la commande suivante :
ollama run llama3.2-vision
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
Code
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
Image d'entrée :
Sortie:
La collection Llama 3.2-Vision de grands modèles de langage multimodaux (LLM) est une collection de modèles génératifs de raisonnement d'images adaptés aux instructions en tailles 118 et 908 (images de texte entrantes/sorties de texte). Les modèles adaptés aux instructions Llama 3.2-Vision sont optimisés pour la reconnaissance visuelle, le raisonnement d'image, le sous-titrage et la réponse à des questions générales sur une image. Les modèles surpassent la plupart des modèles multimodaux open source et fermés disponibles sur les références courantes de l'industrie.
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
Image d'entrée:
Sortie :
ollama-ocr utilise un modèle de vision local, si vous souhaitez utiliser le modèle en ligne Llama 3.2-Vision, essayez la bibliothèque lama-ocr.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!