Maison développement back-end Tutoriel Python Analyse de documents rapide et sale : combiner GOT-OCR et LLama en Python

Analyse de documents rapide et sale : combiner GOT-OCR et LLama en Python

Jan 09, 2025 pm 12:14 PM

Explorons un moyen d'effectuer une analyse OCR LLM pour une image. Est-ce que ce sera la meilleure méthode proposée par un expert possédant des décennies d’expérience ? Pas vraiment. Mais cela vient de quelqu’un qui adopte une approche similaire dans la vraie vie. Considérez cela comme une version de projet de week-end avec des extraits pratiques plutôt que du code prêt pour la production. Allons creuser !

Quel est notre objectif ici ?

Nous allons créer un pipeline simple capable de prendre une image (ou un PDF), d'en extraire du texte à l'aide de l'OCR, puis d'analyser ce texte à l'aide d'un LLM pour obtenir des métadonnées utiles. Cela pourrait être utile pour catégoriser automatiquement les documents, analyser la correspondance entrante ou créer un système intelligent de gestion de documents. Nous le ferons en utilisant des outils open source populaires et garderons les choses relativement simples.

Et oui, tout ce qui suit suppose que vous êtes déjà assez à l'aise avec les transformateurs HF. Sinon, consultez https://huggingface.co/docs/transformers/en/quicktour - cela semble être un bon point de départ. Même si je ne l'ai jamais fait et que j'ai juste appris des exemples. J'y arriverai... éventuellement.

De quels forfaits avons-nous besoin ?

Nous utiliserons une torche et des transformateurs pour le gros du travail, ainsi que pymupdf et rich pour nous faciliter la vie avec une sortie console conviviale (j'aime le riche, donc en gros, nous l'utilisons pour le plaisir).

import json
import time
import fitz

import torch
from transformers import AutoModel, AutoTokenizer, pipeline

from rich.console import Console
console = Console()
Copier après la connexion
Copier après la connexion

Préparez l'image

Tout d’abord, quelle image devons-nous utiliser comme entrée ? Puisque nous utilisons Hugging Face ici pour le travail principal, utilisons la première page de leur page Web principale comme sujet de test. C'est un bon candidat avec à la fois du texte et un formatage compliqué - parfait pour mettre notre OCR à l'épreuve.

That landing page of HF that was mentioned above

Pour une solution plus réaliste, supposons que notre entrée est un PDF (car avouons-le, c'est ce à quoi vous aurez probablement affaire dans le monde réel). Nous devrons le convertir au format PNG pour que notre modèle puisse le traiter :

INPUT_PDF_FILE = "./data/ocr_hf_main_page.pdf"
OUTPUT_PNG_FILE = "./data/ocr_hf_main_page.png"

doc = fitz.open(INPUT_PDF_FILE)
page = doc.load_page(0)
pixmap = page.get_pixmap(dpi=300)
img = pixmap.tobytes()

with console.status("Converting PDF to PNG...", spinner="monkey"):
    with open(OUTPUT_PNG_FILE, "wb") as f:
        f.write(img)
Copier après la connexion
Copier après la connexion

Faites le vrai OCR ici

J'ai joué avec différentes solutions OCR pour cette tâche. Bien sûr, il existe du tesseract et de nombreuses autres options. Mais pour mon cas de test, j'ai obtenu les meilleurs résultats avec GOT-OCR2_0 (https://huggingface.co/stepfun-ai/GOT-OCR2_0). Alors allons-y directement :

tokenizer = AutoTokenizer.from_pretrained(
    "ucaslcl/GOT-OCR2_0",
    device_map="cuda",
    trust_remote_code=True,
)
model = AutoModel.from_pretrained(
    "ucaslcl/GOT-OCR2_0",
    trust_remote_code=True,
    low_cpu_mem_usage=True,
    use_safetensors=True,
    pad_token_id=tokenizer.eos_token_id,
)
model = model.eval().cuda()
Copier après la connexion
Copier après la connexion

Que se passe-t-il ici ? Eh bien, AutoModel et AutoTokenizer par défaut, la seule partie assez spéciale est que nous configurons le modèle pour utiliser cuda. Et ce n'est pas facultatif. Le modèle nécessite le support de CUDA pour fonctionner.

Maintenant que nous avons défini notre modèle, mettons-le en œuvre sur notre fichier enregistré. De plus, nous mesurerons le temps et l’imprimerons. Utile non seulement pour comparer avec différents modèles, mais aussi pour comprendre s'il est même possible que votre cas d'utilisation attende aussi longtemps (même si c'est très rapide pour notre cas) :

import json
import time
import fitz

import torch
from transformers import AutoModel, AutoTokenizer, pipeline

from rich.console import Console
console = Console()
Copier après la connexion
Copier après la connexion

Et voici ce que nous obtenons de notre image originale :

INPUT_PDF_FILE = "./data/ocr_hf_main_page.pdf"
OUTPUT_PNG_FILE = "./data/ocr_hf_main_page.png"

doc = fitz.open(INPUT_PDF_FILE)
page = doc.load_page(0)
pixmap = page.get_pixmap(dpi=300)
img = pixmap.tobytes()

with console.status("Converting PDF to PNG...", spinner="monkey"):
    with open(OUTPUT_PNG_FILE, "wb") as f:
        f.write(img)
Copier après la connexion
Copier après la connexion

^ tout le texte, pas de mise en forme, mais c'est intentionnel.

GOT-OCR2_0 est assez flexible : il peut sortir dans différents formats, y compris HTML. Voici d'autres façons de l'utiliser :

tokenizer = AutoTokenizer.from_pretrained(
    "ucaslcl/GOT-OCR2_0",
    device_map="cuda",
    trust_remote_code=True,
)
model = AutoModel.from_pretrained(
    "ucaslcl/GOT-OCR2_0",
    trust_remote_code=True,
    low_cpu_mem_usage=True,
    use_safetensors=True,
    pad_token_id=tokenizer.eos_token_id,
)
model = model.eval().cuda()
Copier après la connexion
Copier après la connexion

Essayez enfin le LLM

Vient maintenant la partie amusante : choisir un LLM. Il y a eu des discussions sans fin pour savoir lequel est le meilleur, avec des articles partout où vous regardez. Mais restons simples : quel est le LLM dont tout le monde et leur chien ont entendu parler ? Lama. Nous utiliserons donc Llama-3.2-1B pour traiter le texte.

Que pouvons-nous déduire du texte ? Pensez à des éléments de base comme la classification de texte, l'analyse des sentiments, la détection de la langue, etc. Imaginez que vous construisez un système pour classer automatiquement les documents téléchargés ou trier les fax entrants pour une pharmacie.

Je vais sauter l'étude approfondie de l'ingénierie des invites (c'est un tout autre article et je ne pense pas que j'en écrirai), mais voici l'idée de base :

def run_ocr_for_file(func: callable, text: str):
    start_time = time.time()
    res = func()
    final_time = time.time() - start_time

    console.rule(f"[bold red] {text} [/bold red]")
    console.print(res)
    console.rule(f"Time: {final_time} seconds")

    return res

result_text = None
with console.status(
    "Running OCR for the result file...",
    spinner="monkey",
):
    result_text = run_ocr_for_file(
        lambda: model.chat(
            tokenizer,
            OUTPUT_PNG_FILE,
            ocr_type="ocr",
        ),
        "plain texts OCR",
    )
Copier après la connexion

Au fait, est-ce que je fais quelque chose d'hilarant et stupide ici avec une invite/un contenu ? Fais-moi savoir. Assez nouveau dans "l'ingénierie rapide" et ne le prenez pas encore assez au sérieux.

Le modèle enveloppe parfois le résultat dans des blocs de code markdown, nous devons donc gérer cela (si quelqu'un connaît une manière plus propre, je suis tout ouïe) :

Hugging Face- The Al community building the future.  https: / / hugging face. co/  Search models, datasets, users. . .  Following 0
All Models Datasets Spaces Papers Collections Community Posts Up votes Likes New Follow your favorite Al creators Refresh List black-
forest- labs· Advancing state- of- the- art image generation Follow stability a i· Sharing open- source image generation models
Follow bria a i· Specializing in advanced image editing models Follow Trending last 7 days All Models Datasets Spaces deep see k- a
i/ Deep Seek- V 3 Updated 3 days ago· 40 k· 877 deep see k- a i/ Deep Seek- V 3- Base Updated 3 days ago· 6.34 k· 1.06 k 2.39 k
TRELLIS Q wen/ QV Q- 72 B- Preview 88888888888888888888 888888888888888888 301 Gemini Co der 1 of 3 2025-01-01,9:38 p. m
Copier après la connexion

Et voici ce que nous obtenons généralement en sortie :

# format texts OCR:
result_text = model.chat(
  tokenizer,
  image_file,
  ocr_type='format',
)

# fine-grained OCR:
result_text = model.chat(
  tokenizer,
  image_file,
  ocr_type='ocr',
  ocr_box='',
)
# ... ocr_type='format', ocr_box='')
# ... ocr_type='ocr', ocr_color='')
# ... ocr_type='format', ocr_color='')

# multi-crop OCR:
# ... ocr_type='ocr')
# ... ocr_type='format')

# render the formatted OCR results:
result_text = model.chat(
  tokenizer,
  image_file,
  ocr_type='format',
  render=True,
  save_render_file = './demo.html',
)
Copier après la connexion

Pour résumer

Nous avons construit un petit pipeline capable de prendre un PDF, d'extraire son texte à l'aide d'un très bon OCR, puis d'analyser ce texte à l'aide d'un LLM pour obtenir des métadonnées utiles. Est-il prêt pour la production ? Probablement pas. Mais c'est un bon point de départ si vous cherchez à construire quelque chose de similaire. Ce qui est cool, c'est la façon dont nous avons combiné différents outils open source pour créer quelque chose d'utile - de la gestion des PDF à l'OCR en passant par l'analyse LLM.

Vous pouvez facilement prolonger cela. Ajoutez peut-être une meilleure gestion des erreurs, la prise en charge de plusieurs pages ou essayez différents LLM. Ou peut-être le connecter à un système de gestion de documents. J'espère que vous le ferez. Cela pourrait être une tâche amusante.

N'oubliez pas qu'il ne s'agit que d'une façon de procéder : il existe probablement des dizaines d'autres approches qui pourraient mieux fonctionner pour votre cas d'utilisation spécifique. Mais j’espère que cela vous donnera un bon point de départ pour vos propres expériences ! Ou un endroit parfait pour m'apprendre dans les commentaires comment on fait.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Niveaux de force pour chaque ennemi et monstre de R.E.P.O.
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Dead Rails - Comment apprivoiser les loups
3 Il y a quelques semaines By DDD
Blue Prince: Comment se rendre au sous-sol
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1655
14
Tutoriel PHP
1252
29
Tutoriel C#
1226
24
Python vs C: applications et cas d'utilisation comparés Python vs C: applications et cas d'utilisation comparés Apr 12, 2025 am 12:01 AM

Python convient à la science des données, au développement Web et aux tâches d'automatisation, tandis que C convient à la programmation système, au développement de jeux et aux systèmes intégrés. Python est connu pour sa simplicité et son écosystème puissant, tandis que C est connu pour ses capacités de contrôle élevées et sous-jacentes.

Python: jeux, GUIS, et plus Python: jeux, GUIS, et plus Apr 13, 2025 am 12:14 AM

Python excelle dans les jeux et le développement de l'interface graphique. 1) Le développement de jeux utilise Pygame, fournissant des fonctions de dessin, audio et d'autres fonctions, qui conviennent à la création de jeux 2D. 2) Le développement de l'interface graphique peut choisir Tkinter ou Pyqt. Tkinter est simple et facile à utiliser, PYQT a des fonctions riches et convient au développement professionnel.

Combien de python pouvez-vous apprendre en 2 heures? Combien de python pouvez-vous apprendre en 2 heures? Apr 09, 2025 pm 04:33 PM

Vous pouvez apprendre les bases de Python dans les deux heures. 1. Apprenez les variables et les types de données, 2. Structures de contrôle maître telles que si les instructions et les boucles, 3. Comprenez la définition et l'utilisation des fonctions. Ceux-ci vous aideront à commencer à écrire des programmes Python simples.

Le plan Python de 2 heures: une approche réaliste Le plan Python de 2 heures: une approche réaliste Apr 11, 2025 am 12:04 AM

Vous pouvez apprendre les concepts de programmation de base et les compétences de Python dans les 2 heures. 1. Apprenez les variables et les types de données, 2. Flux de contrôle maître (instructions et boucles conditionnelles), 3. Comprenez la définition et l'utilisation des fonctions, 4. Démarrez rapidement avec la programmation Python via des exemples simples et des extraits de code.

Python vs C: courbes d'apprentissage et facilité d'utilisation Python vs C: courbes d'apprentissage et facilité d'utilisation Apr 19, 2025 am 12:20 AM

Python est plus facile à apprendre et à utiliser, tandis que C est plus puissant mais complexe. 1. La syntaxe Python est concise et adaptée aux débutants. Le typage dynamique et la gestion automatique de la mémoire le rendent facile à utiliser, mais peuvent entraîner des erreurs d'exécution. 2.C fournit des fonctionnalités de contrôle de bas niveau et avancées, adaptées aux applications haute performance, mais a un seuil d'apprentissage élevé et nécessite une gestion manuelle de la mémoire et de la sécurité.

Python et temps: tirer le meilleur parti de votre temps d'étude Python et temps: tirer le meilleur parti de votre temps d'étude Apr 14, 2025 am 12:02 AM

Pour maximiser l'efficacité de l'apprentissage de Python dans un temps limité, vous pouvez utiliser les modules DateTime, Time et Schedule de Python. 1. Le module DateTime est utilisé pour enregistrer et planifier le temps d'apprentissage. 2. Le module de temps aide à définir l'étude et le temps de repos. 3. Le module de planification organise automatiquement des tâches d'apprentissage hebdomadaires.

Python: Explorer ses applications principales Python: Explorer ses applications principales Apr 10, 2025 am 09:41 AM

Python est largement utilisé dans les domaines du développement Web, de la science des données, de l'apprentissage automatique, de l'automatisation et des scripts. 1) Dans le développement Web, les cadres Django et Flask simplifient le processus de développement. 2) Dans les domaines de la science des données et de l'apprentissage automatique, les bibliothèques Numpy, Pandas, Scikit-Learn et Tensorflow fournissent un fort soutien. 3) En termes d'automatisation et de script, Python convient aux tâches telles que les tests automatisés et la gestion du système.

Python: automatisation, script et gestion des tâches Python: automatisation, script et gestion des tâches Apr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

See all articles