Heim > Backend-Entwicklung > Python-Tutorial > Entdecken Sie die Magie der Bilder: Eine schnelle und einfache Anleitung zur Verwendung des hochmodernen SmolVLM-M-Modells

Entdecken Sie die Magie der Bilder: Eine schnelle und einfache Anleitung zur Verwendung des hochmodernen SmolVLM-M-Modells

Susan Sarandon
Freigeben: 2025-01-24 14:10:10
Original
247 Leute haben es durchsucht

In diesem Artikel wird SmolVLM-500M-Instruct vorgestellt, ein hochmodernes, kompaktes Vision-to-Text-Modell. Trotz seiner relativ geringen Größe (500 Millionen Parameter) zeigt es beeindruckende Fähigkeiten.

Hier ist der Python-Code:

<code class="language-python">import torch
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import warnings

warnings.filterwarnings("ignore", message="Some kwargs in processor config are unused")

def describe_image(image_path):
    processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")
    model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")

    image = Image.open(image_path)

    prompt = "Describe the image content in detail.  Provide a concise textual response."
    inputs = processor(text=[prompt], images=[image], return_tensors="pt")

    with torch.no_grad():
        outputs = model.generate(
            pixel_values=inputs["pixel_values"],
            input_ids=inputs["input_ids"],
            attention_mask=inputs["attention_mask"],
            max_new_tokens=150,
            do_sample=True,
            temperature=0.7
        )

    description = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    return description.strip()

if __name__ == "__main__":
    image_path = "images/bender.jpg"

    try:
        description = describe_image(image_path)
        print("Image Description:", description)
    except Exception as e:
        print(f"Error: {e}")</code>
Nach dem Login kopieren

Dieses Skript nutzt die Hugging Face Transformers-Bibliothek, um eine Textbeschreibung aus einem Bild zu generieren. Es lädt ein vorab trainiertes Modell und einen Prozessor, verarbeitet das Bild und gibt einen beschreibenden Text aus. Fehlerbehandlung ist inklusive.

Der Code ist hier verfügbar: https://www.php.cn/link/042886829869470b75f63dddfd7e9d9d

Verwendung des folgenden nicht auf Lager befindlichen Bildes (im Bildverzeichnis des Projekts abgelegt):

Unlock the Magic of Images: A Quick and Easy Guide to Using the Cutting-Edge SmolVLM-M Model

Das Modell generiert eine Beschreibung (die Eingabeaufforderung und die Parameter können für eine genauere Steuerung angepasst werden): Ein Roboter, der auf einer Couch sitzt, ist in die Lektüre eines Buches vertieft. Im Hintergrund sind Bücherregale und eine Tür zu sehen. Ein weißer Stuhl mit Kissen ist ebenfalls in der Szene.

Die Geschwindigkeit und Effizienz des Modells sind im Vergleich zu größeren Sprachmodellen bemerkenswert.

Das obige ist der detaillierte Inhalt vonEntdecken Sie die Magie der Bilder: Eine schnelle und einfache Anleitung zur Verwendung des hochmodernen SmolVLM-M-Modells. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage