Heim > Technologie-Peripheriegeräte > KI > Szenetexterkennung unter Verwendung der Vision-basierten Texterkennung

Szenetexterkennung unter Verwendung der Vision-basierten Texterkennung

Lisa Kudrow
Freigeben: 2025-03-14 09:45:09
Original
416 Leute haben es durchsucht

Die Szenetexterkennung (STR) ist aufgrund der Vielzahl von Textauftritten in realen Einstellungen eine bedeutende Herausforderung für Forscher. Das Erkennen von Text in einem Dokument unterscheidet sich beispielsweise von der Identifizierung von Text in einem T-Shirt. Das MGP-STR-Modell (Multi-Granularity-Vorhersage für die Szene Texterkennung), das bei ECCV 2022 eingeführt wurde, bietet einen bahnbrechenden Ansatz. MGP-STR kombiniert die Robustheit von Visionstransformatoren (VIT) mit innovativen Sprachvorhersagen mit mehreren Granularität und verbessert die Fähigkeit, komplexe STR-Aufgaben zu bewältigen. Dies führt zu einer höheren Genauigkeit und einer besseren Benutzerfreundlichkeit in verschiedenen, herausfordernden realen Szenarien und bietet eine einfache, aber leistungsstarke Lösung.

Wichtige Lernpunkte

  • Erfassen Sie die Architektur und Komponenten von MGP-STR, einschließlich Sehtransformatoren (VIT).
  • Verstehen Sie, wie Multi-Granularitätsvorhersagen die Genauigkeit und Anpassungsfähigkeit der Szenetexterkennung stärken.
  • Erforschen Sie die praktischen Anwendungen von MGP-STR bei OCR-Aufgaben (OPTICAL CHARACTICAL ERKUNDEN).
  • Sammeln Sie praktische Erfahrungen bei der Implementierung und Verwendung von MGP-STR mit Pytorch für die Erkennung von Szenentext.

*Dieser Artikel ist Teil des *** Data Science Blogathon.

Inhaltsverzeichnis

  • Was ist MGP-STR?
  • Anwendungen und Anwendungsfälle von MGP-STR
  • Erste Schritte mit MGP-STR
    • Schritt 1: Abhängigkeiten importieren
    • Schritt 2: Laden des Basismodells
    • Schritt 3: Helferfunktion für die Textvorhersage aus den Bildern
  • Abschluss
  • Häufig gestellte Fragen

Was ist MGP-STR?

MGP-STR ist ein sehbasiertes STR-Modell, ohne ein separates Sprachmodell zu benötigen. Es integriert sprachliche Informationen direkt in seine Architektur mit der MGP-Strategie (Multi-Granularity Prediction). Dieser implizite Ansatz ermöglicht es MGP-STR, sowohl rein visuelle Modelle als auch sprachverhinderte Methoden zu übertreffen, wodurch hochmoderne STR-Ergebnisse erzielt werden.

Die Architektur besteht aus zwei Schlüsselkomponenten:

  • Vision Transformator (Vit)
  • A³ Module

Die Verschmelzung von Vorhersagen in Charakter-, Subword- und Wortniveaus durch eine einfache, aber effektive Strategie sorgt dafür, dass MGP-STR sowohl visuelle als auch sprachliche Details erfasst.

Szenetexterkennung unter Verwendung der Vision-basierten Texterkennung

Anwendungen und Anwendungsfälle von MGP-STR

MGP-STR dient hauptsächlich für OCR-Aufgaben auf Textbildern. Seine einzigartige Fähigkeit, sprachliches Wissen implizit einzubeziehen, macht es in realen Szenarien mit abwechslungsreichem und verzerrten Text besonders nützlich. Beispiele sind:

  • Text aus natürlichen Szenen (Straßenschilder, Werbetafeln) lesen.
  • Extrahieren von Text aus gescannten Formularen und Dokumenten (handgeschrieben oder gedruckt).
  • Analyse von Text in industriellen Umgebungen (Produktetiketten, Barcodes).
  • Textübersetzung/Transkription in Augmented Reality (AR) Anwendungen.
  • Informationsextraktion aus gescannten Dokumenten oder Fotos von gedruckten Materialien.
  • Unterstützung von Barrierefreiheitslösungen (Bildschirmleser).

Szenetexterkennung unter Verwendung der Vision-basierten Texterkennung

Schlüsselmerkmale und Vorteile

  • Keine Notwendigkeit für unabhängige Sprachmodelle
  • Multi-Granularitätsvorhersagen
  • Hochmoderne Leistung
  • Benutzerfreundlich

Erste Schritte mit MGP-STR

In diesem Abschnitt wird angezeigt, wie MGP-STR für die Erkennung von Szenetext auf einem Beispielbild verwendet wird. Sie benötigen Pytorch, die Transformers Library und Abhängigkeiten (PIL, Anfragen).

Schritt 1: Importierter Bibliotheken importieren

Importieren Sie die erforderlichen Bibliotheken: Transformatoren für die Modellhandhabung, PIL für Bildmanipulation und Anfragen zum Abrufen von Online -Bildern.

 <code>from transformers import MgpstrProcessor, MgpstrForSceneTextRecognition import requests import base64 from io import BytesIO from PIL import Image from IPython.display import display, Image as IPImage</code>
Nach dem Login kopieren

Schritt 2: Laden des vorgebildeten Modells

Laden Sie das MGP-STR-Basismodell und seinen Prozessor von der Umarmung von Gesichtstransformatoren.

 <code>processor = MgpstrProcessor.from_pretrained('alibaba-damo/mgp-str-base') model = MgpstrForSceneTextRecognition.from_pretrained('alibaba-damo/mgp-str-base')</code>
Nach dem Login kopieren

Schritt 3: Bildverarbeitungs- und Textvorhersagefunktion

Erstellen Sie eine Funktion, um Bild-URLs einzugeben, sie mit MGP-STR zu verarbeiten und Textvorhersagen zurückzugeben. Dies behandelt Bildumwandlung, Basis64 -Codierung und Textdecodierung.

 <code>def predict(url): image = Image.open(requests.get(url, stream=True).raw).convert("RGB") pixel_values = processor(images=image, return_tensors="pt").pixel_values outputs = model(pixel_values) generated_text = processor.batch_decode(outputs.logits)['generated_text'] buffered = BytesIO() image.save(buffered, format="PNG") image_base64 = base64.b64encode(buffered.getvalue()).decode("utf-8") display(IPImage(data=base64.b64decode(image_base64))) print("\n\n") return generated_text</code>
Nach dem Login kopieren

Beispiele (unter Verwendung von Bild -URLs aus dem Originaltext):

Die Beispiele mit Bild -URLs und Vorhersagen werden hier weggelassen, um Platz zu sparen. Sie verfolgen jedoch dieselbe Struktur wie im Originaltext und rufen die predict mit unterschiedlichen Bild -URLs auf.

Die Genauigkeit des Modells zeigt sich aus den Bildbeispielen. Seine Effizienz ist bemerkenswert und läuft auf einer CPU mit geringem RAM -Gebrauch. Dies macht es leicht für die Feinabstimmung von domänenspezifischen Aufgaben anpassen.

Szenetexterkennung unter Verwendung der Vision-basierten Texterkennung

Abschluss

MGP-STR kombiniert effektiv Seh- und Sprachverständnis. Seine innovativen Vorhersagen mit mehreren Granularität bieten einen umfassenden Ansatz für STR und verbessern die Genauigkeit und Anpassungsfähigkeit ohne externe Sprachmodelle. Die einfache, aber genaue Architektur macht es zu einem wertvollen Instrument für Forscher und Entwickler in OCR und STR. Seine Open-Source-Natur fördert weitere Fortschritte im Bereich.

Ressourcen

  • Google Collaby: [Link] (Ersetzen Sie durch den tatsächlichen Link)
  • ARXIV: [Link] (Ersetzen Sie durch den tatsächlichen Link)
  • GitHub: [Link] (Ersetzen Sie durch die tatsächliche Verbindung)
  • Umarmung: [Link] (Ersetzen Sie durch den tatsächlichen Link)

Schlüsselpunkte

  • MGP-STR integriert Vision und Sprache ohne separate Sprachmodelle.
  • Multi-Granularitätsvorhersagen verbessern seine Leistung über verschiedene Herausforderungen hinweg.
  • MGP-STR erzielt hochmoderne Ergebnisse mit einer einfachen Architektur.
  • Es ist für verschiedene OCR -Aufgaben leicht anpassungsfähig.

Häufig gestellte Fragen

  • F1: Was ist MGP-STR und wie unterscheidet es sich von herkömmlichen STR-Modellen? A1: MGP-STR integriert sprachliche Vorhersagen direkt in sein sehbasiertes Framework unter Verwendung von MGP und beseitigt die Notwendigkeit separater Sprachmodelle, die in herkömmlichen Methoden zu finden sind.

  • F2: Mit welchen Datensätzen wurden MGP-STR geschult? A2: Das Basismodell wurde auf MJSynth und SynthText trainiert.

  • F3: Kann MGP-STR-Griff verzerrte oder minderwertige Textbilder? A3: Ja, sein Multi-Granularity-Vorhersagemechanismus ermöglicht es ihm, solche Herausforderungen zu bewältigen.

  • F4: Ist MGP-STR für andere Sprachen als Englisch geeignet? A4: Obwohl es für Englisch optimiert ist, kann es mit geeigneten Trainingsdaten an andere Sprachen angepasst werden.

  • F5: Wie trägt das A³-Modul zur Leistung von MGP-STR bei? A5: Das A³-Modul verfeinert VIT-Ausgänge, ermöglicht Vorhersagen auf Unterwortebene und eingebettet sprachliche Informationen.

HINWEIS: Die Bildplatzhalter bleiben die gleichen wie in der ursprünglichen Eingabe. Denken Sie daran, die klammernden Links durch tatsächliche Links zu ersetzen.

Das obige ist der detaillierte Inhalt vonSzenetexterkennung unter Verwendung der Vision-basierten Texterkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage