Ollama-OCR pour l'OCR de haute précision avec Ollama
Llama 3.2-Vision est un grand modèle de langage multimodal disponible en tailles 11B et 90B, capable de traiter à la fois les entrées de texte et d'image pour générer des sorties de texte. Le modèle excelle dans la reconnaissance visuelle, le raisonnement d'image, la description d'image et la réponse aux questions liées à l'image, surpassant les modèles multimodaux open source et fermés existants dans plusieurs références industrielles.
Exemples de vision de Lama 3.2
Écriture
Reconnaissance optique de caractères (OCR)
Dans cet article, je vais décrire comment appeler le service de modélisation Llama 3.2-Vision 11B géré par Ollama et implémenter la fonctionnalité de reconnaissance de texte d'image (OCR) à l'aide d'Ollama-OCR.
Caractéristiques d'Ollama-OCR
? Reconnaissance de texte de haute précision à l'aide du modèle Llama 3.2-Vision
? Préserve la mise en forme et la structure du texte d'origine
?️ Prend en charge plusieurs formats d'image : JPG, JPEG, PNG
⚡️ Invites et modèles de reconnaissance personnalisables
? Option de format de sortie Markdown
? Gestion robuste des erreurs
Installation d'Ollama
Avant de pouvoir commencer à utiliser Llama 3.2-Vision, vous devez installer Ollama, une plate-forme qui prend en charge l'exécution de modèles multimodaux localement. Suivez les étapes ci-dessous pour l'installer :
- Télécharger Ollama : visitez le site Web officiel d'Ollama pour télécharger le package d'installation de votre système d'exploitation.
- Installez Ollama : suivez les instructions pour terminer l'installation selon le package d'installation téléchargé.
Installer Llama 3.2-Vision 11B
Après avoir installé Ollama, vous pouvez installer le modèle Llama 3.2-Vision 11B avec la commande suivante :
ollama run llama3.2-vision
Comment utiliser Ollama-OCR
npm install ollama-ocr # or using pnpm pnpm add ollama-ocr
ROC
Code
import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./handwriting.jpg", systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT, }); console.log(text); }
Image d'entrée :
Sortie:
La collection Llama 3.2-Vision de grands modèles de langage multimodaux (LLM) est une collection de modèles génératifs de raisonnement d'images adaptés aux instructions en tailles 118 et 908 (images de texte entrantes/sorties de texte). Les modèles adaptés aux instructions Llama 3.2-Vision sont optimisés pour la reconnaissance visuelle, le raisonnement d'image, le sous-titrage et la réponse à des questions générales sur une image. Les modèles surpassent la plupart des modèles multimodaux open source et fermés disponibles sur les références courantes de l'industrie.
2. Sortie de démarque
import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr"; async function runOCR() { const text = await ollamaOCR({ filePath: "./trader-joes-receipt.jpg", systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT, }); console.log(text); }
Image d'entrée:
Sortie :
ollama-ocr utilise un modèle de vision local, si vous souhaitez utiliser le modèle en ligne Llama 3.2-Vision, essayez la bibliothèque lama-ocr.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Différents moteurs JavaScript ont des effets différents lors de l'analyse et de l'exécution du code JavaScript, car les principes d'implémentation et les stratégies d'optimisation de chaque moteur diffèrent. 1. Analyse lexicale: convertir le code source en unité lexicale. 2. Analyse de la grammaire: générer un arbre de syntaxe abstrait. 3. Optimisation et compilation: générer du code machine via le compilateur JIT. 4. Exécuter: Exécutez le code machine. Le moteur V8 optimise grâce à une compilation instantanée et à une classe cachée, SpiderMonkey utilise un système d'inférence de type, résultant en différentes performances de performances sur le même code.

Python convient plus aux débutants, avec une courbe d'apprentissage en douceur et une syntaxe concise; JavaScript convient au développement frontal, avec une courbe d'apprentissage abrupte et une syntaxe flexible. 1. La syntaxe Python est intuitive et adaptée à la science des données et au développement back-end. 2. JavaScript est flexible et largement utilisé dans la programmation frontale et côté serveur.

Le passage de C / C à JavaScript nécessite de s'adapter à la frappe dynamique, à la collecte des ordures et à la programmation asynchrone. 1) C / C est un langage dactylographié statiquement qui nécessite une gestion manuelle de la mémoire, tandis que JavaScript est dynamiquement typé et que la collecte des déchets est automatiquement traitée. 2) C / C doit être compilé en code machine, tandis que JavaScript est une langue interprétée. 3) JavaScript introduit des concepts tels que les fermetures, les chaînes de prototypes et la promesse, ce qui améliore la flexibilité et les capacités de programmation asynchrones.

Les principales utilisations de JavaScript dans le développement Web incluent l'interaction client, la vérification du formulaire et la communication asynchrone. 1) Mise à jour du contenu dynamique et interaction utilisateur via les opérations DOM; 2) La vérification du client est effectuée avant que l'utilisateur ne soumette les données pour améliorer l'expérience utilisateur; 3) La communication de rafraîchissement avec le serveur est réalisée via la technologie AJAX.

L'application de JavaScript dans le monde réel comprend un développement frontal et back-end. 1) Afficher les applications frontales en créant une application de liste TODO, impliquant les opérations DOM et le traitement des événements. 2) Construisez RestulAPI via Node.js et Express pour démontrer les applications back-end.

Comprendre le fonctionnement du moteur JavaScript en interne est important pour les développeurs car il aide à écrire du code plus efficace et à comprendre les goulots d'étranglement des performances et les stratégies d'optimisation. 1) Le flux de travail du moteur comprend trois étapes: analyse, compilation et exécution; 2) Pendant le processus d'exécution, le moteur effectuera une optimisation dynamique, comme le cache en ligne et les classes cachées; 3) Les meilleures pratiques comprennent l'évitement des variables globales, l'optimisation des boucles, l'utilisation de const et de locations et d'éviter une utilisation excessive des fermetures.

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Les choix de Python et JavaScript dans les environnements de développement sont importants. 1) L'environnement de développement de Python comprend Pycharm, Jupyternotebook et Anaconda, qui conviennent à la science des données et au prototypage rapide. 2) L'environnement de développement de JavaScript comprend Node.js, VScode et WebPack, qui conviennent au développement frontal et back-end. Le choix des bons outils en fonction des besoins du projet peut améliorer l'efficacité du développement et le taux de réussite du projet.
