In diesem Artikel wird SmolVLM-500M-Instruct vorgestellt, ein hochmodernes, kompaktes Vision-to-Text-Modell. Trotz seiner relativ geringen Größe (500 Millionen Parameter) zeigt es beeindruckende Fähigkeiten.
Hier ist der Python-Code:
<code class="language-python">import torch from transformers import AutoProcessor, AutoModelForVision2Seq from PIL import Image import warnings warnings.filterwarnings("ignore", message="Some kwargs in processor config are unused") def describe_image(image_path): processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct") model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct") image = Image.open(image_path) prompt = "Describe the image content in detail. Provide a concise textual response." inputs = processor(text=[prompt], images=[image], return_tensors="pt") with torch.no_grad(): outputs = model.generate( pixel_values=inputs["pixel_values"], input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"], max_new_tokens=150, do_sample=True, temperature=0.7 ) description = processor.batch_decode(outputs, skip_special_tokens=True)[0] return description.strip() if __name__ == "__main__": image_path = "images/bender.jpg" try: description = describe_image(image_path) print("Image Description:", description) except Exception as e: print(f"Error: {e}")</code>
Dieses Skript nutzt die Hugging Face Transformers-Bibliothek, um eine Textbeschreibung aus einem Bild zu generieren. Es lädt ein vorab trainiertes Modell und einen Prozessor, verarbeitet das Bild und gibt einen beschreibenden Text aus. Fehlerbehandlung ist inklusive.
Der Code ist hier verfügbar: https://www.php.cn/link/042886829869470b75f63dddfd7e9d9d
Verwendung des folgenden nicht auf Lager befindlichen Bildes (im Bildverzeichnis des Projekts abgelegt):
Das Modell generiert eine Beschreibung (die Eingabeaufforderung und die Parameter können für eine genauere Steuerung angepasst werden): Ein Roboter, der auf einer Couch sitzt, ist in die Lektüre eines Buches vertieft. Im Hintergrund sind Bücherregale und eine Tür zu sehen. Ein weißer Stuhl mit Kissen ist ebenfalls in der Szene.
Die Geschwindigkeit und Effizienz des Modells sind im Vergleich zu größeren Sprachmodellen bemerkenswert.
Das obige ist der detaillierte Inhalt vonEntdecken Sie die Magie der Bilder: Eine schnelle und einfache Anleitung zur Verwendung des hochmodernen SmolVLM-M-Modells. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!