이 기사에서는 최첨단 소형 비전-텍스트 모델인 SmolVLM-500M-Instruct를 소개합니다. 상대적으로 작은 크기(5억 개의 매개변수)에도 불구하고 인상적인 성능을 보여줍니다.
Python 코드는 다음과 같습니다.
<code class="language-python">import torch from transformers import AutoProcessor, AutoModelForVision2Seq from PIL import Image import warnings warnings.filterwarnings("ignore", message="Some kwargs in processor config are unused") def describe_image(image_path): processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct") model = AutoModelForVision2Seq.from_pretrained("HuggingFaceTB/SmolVLM-500M-Instruct") image = Image.open(image_path) prompt = "Describe the image content in detail. Provide a concise textual response." inputs = processor(text=[prompt], images=[image], return_tensors="pt") with torch.no_grad(): outputs = model.generate( pixel_values=inputs["pixel_values"], input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"], max_new_tokens=150, do_sample=True, temperature=0.7 ) description = processor.batch_decode(outputs, skip_special_tokens=True)[0] return description.strip() if __name__ == "__main__": image_path = "images/bender.jpg" try: description = describe_image(image_path) print("Image Description:", description) except Exception as e: print(f"Error: {e}")</code>
이 스크립트는 Hugging Face Transformers 라이브러리를 활용하여 이미지에서 텍스트 설명을 생성합니다. 사전 훈련된 모델과 프로세서를 로드하고, 이미지를 처리하고, 설명 텍스트를 출력합니다. 오류 처리가 포함되어 있습니다.
코드는 여기에서 확인할 수 있습니다: https://www.php.cn/link/042886829869470b75f63dddfd7e9d9d
다음 비스톡 이미지 사용(프로젝트의 이미지 디렉토리에 있음):
모델이 설명을 생성합니다(세밀한 제어를 위해 프롬프트와 매개변수를 조정할 수 있음). 로봇이 소파에 앉아 책을 읽는 데 열중하고 있습니다. 책장과 문이 배경에 보입니다. 쿠션이 있는 흰색 의자도 등장합니다.
대형 언어 모델에 비해 모델의 속도와 효율성이 주목할 만합니다.
위 내용은 이미지의 마법 잠금 해제 : 최첨단 Smolvlm-M 모델 사용에 대한 빠르고 쉬운 안내서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!