> 백엔드 개발 > 파이썬 튜토리얼 > 이미지의 마법 잠금 해제 : 최첨단 Smolvlm-M 모델 사용에 대한 빠르고 쉬운 안내서

이미지의 마법 잠금 해제 : 최첨단 Smolvlm-M 모델 사용에 대한 빠르고 쉬운 안내서

Susan Sarandon
풀어 주다: 2025-01-24 14:10:10
원래의
256명이 탐색했습니다.

이 기사에서는 최첨단 소형 비전-텍스트 모델인 SmolVLM-500M-Instruct를 소개합니다. 상대적으로 작은 크기(5억 개의 매개변수)에도 불구하고 인상적인 성능을 보여줍니다.

Python 코드는 다음과 같습니다.

<code class="language-python">import torch
from transformers import AutoProcessor, AutoModelForVision2Seq
from PIL import Image
import warnings

warnings.filterwarnings("ignore", message="Some kwargs in processor config are unused")

def describe_image(image_path):
    processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")
    model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct")

    image = Image.open(image_path)

    prompt = "Describe the image content in detail.  Provide a concise textual response."
    inputs = processor(text=[prompt], images=[image], return_tensors="pt")

    with torch.no_grad():
        outputs = model.generate(
            pixel_values=inputs["pixel_values"],
            input_ids=inputs["input_ids"],
            attention_mask=inputs["attention_mask"],
            max_new_tokens=150,
            do_sample=True,
            temperature=0.7
        )

    description = processor.batch_decode(outputs, skip_special_tokens=True)[0]
    return description.strip()

if __name__ == "__main__":
    image_path = "images/bender.jpg"

    try:
        description = describe_image(image_path)
        print("Image Description:", description)
    except Exception as e:
        print(f"Error: {e}")</code>
로그인 후 복사

이 스크립트는 Hugging Face Transformers 라이브러리를 활용하여 이미지에서 텍스트 설명을 생성합니다. 사전 훈련된 모델과 프로세서를 로드하고, 이미지를 처리하고, 설명 텍스트를 출력합니다. 오류 처리가 포함되어 있습니다.

코드는 여기에서 확인할 수 있습니다: https://www.php.cn/link/042886829869470b75f63dddfd7e9d9d

다음 비스톡 이미지 사용(프로젝트의 이미지 디렉토리에 있음):

Unlock the Magic of Images: A Quick and Easy Guide to Using the Cutting-Edge SmolVLM-M Model

모델이 설명을 생성합니다(세밀한 제어를 위해 프롬프트와 매개변수를 조정할 수 있음). 로봇이 소파에 앉아 책을 읽는 데 열중하고 있습니다. 책장과 문이 배경에 보입니다. 쿠션이 있는 흰색 의자도 등장합니다.

대형 언어 모델에 비해 모델의 속도와 효율성이 주목할 만합니다.

위 내용은 이미지의 마법 잠금 해제 : 최첨단 Smolvlm-M 모델 사용에 대한 빠르고 쉬운 안내서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿