목차
소개
학습 목표
목차
비전 언어 모델이란 무엇입니까?
비전 언어 모델의 기능
비전 플러스 언어
물체 감지
이미지 분할
임베딩
비전 질문 응답 (VQA)
주목할만한 VLM 모델
클립 (대비 언어 이미지 사전 훈련)
llava (큰 언어 및 비전 조수)
Lamda (대화 응용 프로그램을위한 언어 모델)
피렌체
비전 언어 모델의 가족
미리 훈련 된 모델 패밀리
작동 방식
가면 모델 패밀리
작동 방식 (이미지 마스킹)
작동 방식 (텍스트 마스킹)
생성 가족
텍스트-이미지 생성
이미지-텍스트 생성
대조적 인 학습
어떻게 작동합니까?
클립 (대조 언어 이미지 사전 여파)
클립의 작동 방식
클립 기능의 주요 단계
클립의 응용 프로그램
코드 예 : 클립으로 이미지-텍스트
Siglip (시암 일반 언어 이미지 사전 여보)
Siglip의 작동 방식
Siglip의 기능의 주요 단계
Siglip의 응용
코드 예제 : Siglip을 사용한 제로 샷 이미지 분류
훈련 비전 언어 모델 (VLMS)
Paligemma 이해
Paligemma의 훈련 단계
결론
자주 묻는 질문
기술 주변기기 일체 포함 비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

Apr 12, 2025 am 11:58 AM

소개

생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? "어떤 이야기를하고 있습니까?" 또는 "예술가가 왜이 색을 선택 했습니까?" VLM (Vision Language Models)이 시작되는 곳입니다. 박물관의 전문가 가이드와 같은이 모델은 이미지를 해석하고 맥락을 이해하며 인간 언어를 사용하여 해당 정보를 전달할 수 있습니다. VLM은 사진에서 객체를 식별하거나 시각적 콘텐츠에 대한 질문에 답하거나 새로운 이미지를 생성하든, 한때 불가능하다고 생각되는 방식으로 비전과 언어의 힘을 병합합니다.

이 가이드에서는 매혹적인 VLM의 세계, 작업 방식, 기능 및 클립, 팔라마 및 피렌체와 같은 획기적인 모델을 탐구하여 기계가 주변 세계를 이해하고 상호 작용하는 방식을 변화시킵니다.

이 기사는 Thedatahack Summit 2024의 Aritra Roy Gosthipaty와 Ritwik Rahaona Vision Language 모델에 대한 포괄적 인 가이드를 제공하는 최근의 대화를 바탕으로합니다.

학습 목표

  • VLM (Vision Language Models)의 핵심 개념과 기능을 이해하십시오.
  • 객체 감지 및 이미지 세분화와 같은 작업에 대해 VLMS가 시각적 및 언어 데이터를 어떻게 병합하는지 살펴보십시오.
  • Clip, Palama 및 Florence와 같은 주요 VLM 아키텍처 및 응용 프로그램에 대해 알아보십시오.
  • 사전 훈련, 마스크 및 생성 모델을 포함하여 다양한 VLM 패밀리에 대한 통찰력을 얻으십시오.
  • 대조적 인 학습이 VLM 성능을 향상시키는 방법과 미세 조정이 모델 정확도를 향상시키는 방법을 알아보십시오.

목차

  • 비전 언어 모델이란 무엇입니까?
  • 비전 언어 모델의 기능
  • 주목할만한 VLM 모델
  • 비전 언어 모델의 가족
  • 클립 (대조 언어 이미지 사전 여파)
  • Siglip (시암 일반 언어 이미지 사전 여보)
  • 훈련 비전 언어 모델 (VLMS)
  • Paligemma 이해
  • 자주 묻는 질문

비전 언어 모델이란 무엇입니까?

VLMS (Vision Language Models)는 비디오 또는 비디오 및 텍스트를 입력으로 처리하는 것을 목표로하는 특정 범주의 인공 지능 시스템을 나타냅니다. 이 두 가지 양식을 결합하면 VLMS는 예를 들어 이미지와 텍스트 사이의 의미를 매핑하기 위해 모델과 관련된 작업을 수행 할 수 있습니다. 이미지를 묘사하고 이미지를 기반으로 질문에 대답하고 그 반대도 마찬가지입니다.

VLM의 핵심 강도는 컴퓨터 비전과 NLP의 격차를 해소하는 능력에 있습니다. 전통적인 모델은 일반적으로 이러한 영역 중 하나에서만 우수했습니다. 이미지에서 객체를 인식하거나 인간 언어를 이해합니다. 그러나 VLM은 두 가지 양식을 결합하도록 특별히 설계되었으며 언어 렌즈를 통해 이미지를 해석하는 법을 학습하여 데이터에 대한보다 전체적인 이해를 제공하며 그 반대도 마찬가지입니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

VLM의 아키텍처는 일반적으로 시각적 및 텍스트 데이터의 공동 표현을 학습하여 모델이 교차 모달 작업을 수행 할 수 있습니다. 이 모델은 이미지 쌍과 해당 텍스트 설명이 포함 된 대형 데이터 세트에서 미리 훈련됩니다. 훈련하는 동안 VLM은 이미지의 객체와이를 설명하는 데 사용되는 단어 간의 관계를 학습하여 모델이 이미지에서 텍스트를 생성하거나 시각적 데이터의 맥락에서 텍스트 프롬프트를 이해할 수있게합니다.

VLM이 처리 할 수있는 주요 작업의 예에는 다음이 포함됩니다.

  • 비전 질문 답변 (VQA) : 이미지의 내용에 대한 질문 답변.
  • 이미지 캡션 : 이미지에서 보이는 내용에 대한 텍스트 설명을 생성합니다.
  • 객체 감지 및 분할 : 종종 텍스트 컨텍스트를 사용하여 이미지의 다른 객체 또는 부분을 식별하고 레이블을 지정합니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

비전 언어 모델의 기능

VLM (Vision Language Models)은 시각적 및 텍스트 정보를 모두 통합하여 다양한 복잡한 작업을 해결하도록 진화했습니다. 이미지와 언어 사이의 고유 한 관계를 활용하여 여러 도메인에서 획기적인 기능을 가능하게합니다.

비전 플러스 언어

VLM의 초석은 시각적 및 텍스트 데이터로 이해하고 작동하는 능력입니다. 이 두 스트림을 동시에 처리함으로써 VLM은 이미지 캡션 생성, 설명으로 객체 인식 또는 시각적 정보를 텍스트 컨텍스트와 연결하는 것과 같은 작업을 수행 할 수 있습니다. 이 교차 모달 이해는 더 풍부하고 일관된 출력을 가능하게하여 실제 응용 프로그램에서 매우 다재다능합니다.

물체 감지

객체 감지는 VLM의 중요한 기능입니다. 이를 통해 모델은 이미지 내에서 객체를 인식하고 분류하여 언어 레이블에 대한 시각적 이해를 기반으로합니다. 언어 이해를 결합함으로써 VLM은 객체를 감지 할뿐만 아니라 그들의 맥락을 이해하고 설명 할 수도 있습니다. 여기에는 이미지에서 "개"를 식별 할뿐만 아니라 다른 장면 요소와 연관되어 객체 감지를보다 역동적이고 유익하게 만듭니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

이미지 분할

VLM은 이미지를 수행하여 전통적인 비전 모델을 향상시켜 이미지를 콘텐츠에 따라 의미있는 세그먼트 또는 영역으로 나눕니다. VLM 에서이 작업은 텍스트 이해에 의해 보강됩니다. 즉, 모델은 특정 객체를 세분화하고 각 섹션에 대한 문맥 설명을 제공 할 수 있습니다. 모델이 이미지의 세밀한 구조를 분해하고 설명 할 수 있기 때문에 이것은 단순히 인식하는 객체를 넘어서는 것 이상입니다.

임베딩

VLMS에서 또 다른 매우 중요한 원칙은 시각적 데이터와 텍스트 데이터 사이의 상호 작용을위한 공유 공간을 제공하기 때문에 임베딩 역할입니다. 이미지와 단어를 연결함으로써 모델은 텍스트가 주어진 이미지를 쿼리하는 것과 같은 작업을 수행 할 수 있고 그 반대도 마찬가지입니다. 이는 VLM이 이미지의 매우 효과적인 표현을 생성하므로 크로스 모달 프로세스에서 비전과 언어 사이의 격차를 닫는 데 도움이 될 수 있기 때문입니다.

비전 질문 응답 (VQA)

VLMS와의 작업의 모든 형태 중에서, 더 복잡한 형태 중 하나는 VQA를 사용하여 제공되며, 이는 VLM에 이미지와 이미지와 관련된 질문이 제시됨을 의미합니다. VLM은 이미지에서 획득 한 그림 해석을 사용하고 쿼리에 적절하게 답변하는 데 자연어 처리 이해를 사용합니다. 예를 들어, 다음 질문이있는 공원의 이미지가 주어지면 "그림에서 몇 개의 벤치를 볼 수 있습니까?" 이 모델은 계산 문제를 해결할 수 있으며 비전뿐만 아니라 모델의 추론을 보여주는 답변을 제공 할 수 있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

주목할만한 VLM 모델

여러 비전 언어 모델 (VLM)이 등장하여 교차 모달 학습에서 가능한 것의 경계를 넓혔습니다. 각 모델은 광범위한 비전 언어 연구 환경에 기여하는 고유 한 기능을 제공합니다. 다음은 가장 중요한 VLM 중 일부입니다.

클립 (대비 언어 이미지 사전 훈련)

클립은 VLM 공간의 선구자 모델 중 하나입니다. 대조적 인 학습 접근법을 사용하여 이미지와 해당 설명과 일치하는 법을 학습하여 시각 및 텍스트 데이터를 연결합니다. 이 모델은 텍스트와 쌍을 이루는 이미지로 구성된 대규모 데이터 세트를 처리하고 이미지와 텍스트 간의 유사성을 최적화하면서 비 매칭 쌍을 구별함으로써 학습합니다. 이 대조적 인 접근 방식을 사용하면 Clip은 명시적인 작업 별 교육없이 제로 샷 분류, 이미지 캡션 및 시각적 질문 응답을 포함하여 광범위한 작업을 처리 할 수 ​​있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

여기에서 클립에 대해 자세히 알아보십시오.

llava (큰 언어 및 비전 조수)

Llava는 복잡한 멀티 모달 작업을 위해 시각적 및 언어 데이터를 모두 정렬하도록 설계된 정교한 모델입니다. 이미지 관련 쿼리를 해석하고 응답하는 능력을 향상시키기 위해 대형 언어 모델로 이미지 처리를 융합시키는 고유 한 접근법을 사용합니다. Llava는 텍스트 및 시각적 표현을 모두 활용하여 시각적 질문 응답, 대화식 이미지 생성 및 이미지와 관련된 대화 기반 작업을 탁월합니다. 강력한 언어 모델과의 통합을 통해 상세한 설명을 생성하고 실시간 비전 언어 상호 작용을 지원할 수 있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

여기에서 llava에 대한 모드를 읽으십시오.

Lamda (대화 응용 프로그램을위한 언어 모델)

Lamda는 대부분 언어 측면에서 논의되었지만 비전 언어 작업에도 사용될 수 있습니다. Lamda는 대화 시스템과 비전 모델과 결합 할 때 매우 친절합니다. 시각적 질문 응답, 이미지 제어 대화 및 기타 결합 모달 작업을 수행 할 수 있습니다. Lamda는 인간과 유사하고 상황에 맞는 답변을 제공하는 경향이 있기 때문에 자동화 된 이미지 또는 가상 어시스턴트 분석과 같은 시각적 데이터에 대한 논의가 필요한 모든 응용 프로그램에 도움이 될 수 있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

여기에서 Lamda에 대해 자세히 알아보십시오.

피렌체

피렌체는 광범위한 교차 모달 작업을 수행하기 위해 비전과 언어 데이터를 모두 통합 한 또 다른 강력한 VLM입니다. 큰 데이터 세트를 처리 할 때 효율성과 확장 성으로 특히 유명합니다. 이 모델의 디자인은 빠른 교육 및 배치에 최적화되어 이미지 인식, 객체 감지 및 멀티 모달 이해가 뛰어납니다. 피렌체는 방대한 양의 시각적 및 텍스트 데이터를 통합 할 수 있습니다. 이로 인해 이미지 검색, 캡션 생성 및 이미지 기반 질문 답변과 같은 작업에서는 다재다능합니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

여기에서 피렌체에 대해 자세히 알아보십시오.

비전 언어 모델의 가족

VLM (Vision Language Models)은 다중 모드 데이터를 처리하는 방법에 따라 여러 가족으로 분류됩니다. 여기에는 미리 훈련 된 모델, 마스크 된 모델, 생성 모델 및 대조 학습 모델이 포함됩니다. 각 가족은 다양한 기술을 사용하여 비전과 언어 양식을 조정하여 다양한 작업에 적합합니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

미리 훈련 된 모델 패밀리

미리 훈련 된 모델은 쌍을 이루는 비전 및 언어 데이터의 대규모 데이터 세트에 구축됩니다. 이 모델은 일반적인 작업에 대해 교육을 받으므로 매번 대규모 데이터 세트가 필요하지 않고 특정 응용 프로그램에 대해 미세 조정할 수 있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

작동 방식

미리 훈련 된 모델 패밀리는 이미지와 텍스트의 큰 데이터 세트를 사용합니다. 이 모델은 이미지를 인식하고 텍스트 레이블 또는 설명과 일치하도록 교육을 받았습니다. 이 광범위한 사전 훈련 후 이미지 캡션 또는 시각적 질문 응답과 같은 특정 작업에 대해 모델을 미세 조정할 수 있습니다. 미리 훈련 된 모델은 처음에 풍부한 데이터에 대한 교육을받은 다음 더 작은 특정 도메인에서 미세 조정하기 때문에 효과적입니다. 이 접근법은 다양한 작업에서 성능이 크게 향상되었습니다.

가면 모델 패밀리

마스크 된 모델은 마스킹 기술을 사용하여 VLM을 훈련시킵니다. 이 모델은 입력 이미지 또는 텍스트의 일부를 무작위로 마스킹하고 마스크 된 컨텐츠를 예측하여 더 깊은 맥락 관계를 배우도록 모델링해야합니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

작동 방식 (이미지 마스킹)

마스크 된 이미지 모델은 입력 이미지의 임의 영역을 숨겨 작동합니다. 그런 다음 모델은 누락 된 픽셀을 예측하는 작업을 수행합니다. 이 접근법은 VLM이 주변 시각적 컨텍스트에 집중하여 이미지를 재구성하도록 강요합니다. 결과적 으로이 모델은 로컬 및 글로벌 시각적 기능에 대한 더 강력한 이해를 얻습니다. 이미지 마스킹은 모델이 이미지 내 공간 관계에 대한 강력한 이해를 개발하는 데 도움이됩니다. 이를 개선 한 이해는 객체 감지 및 세분화와 같은 작업의 성능을 향상시킵니다.

작동 방식 (텍스트 마스킹)

마스크 된 언어 모델링에서는 입력 텍스트의 일부가 숨겨져 있습니다. 이 모델은 누락 된 토큰을 예측해야합니다. 이것은 VLM이 복잡한 언어 구조와 관계를 이해하도록 권장합니다. 마스크 된 텍스트 모델은 미묘한 언어 기능을 파악하는 데 중요합니다. 이미지 캡션 및 시각적 질문 응답과 같은 작업에서 모델의 성능을 향상시켜 시각적 데이터와 텍스트 데이터를 모두 이해하는 것이 필수적입니다.

생성 가족

생성 모델은 이미지의 텍스트 나 텍스트의 이미지를 포함하는 새로운 데이터 생성을 처리합니다. 이 모델은 특히 입력 모드에서 새로운 출력을 합성하는 것을 포함하는 텍스트와 이미지와 이미지에서 텍스트 생성에 적용됩니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

텍스트-이미지 생성

텍스트-이미지 생성기를 사용하면 모델에 입력은 텍스트이며 출력은 결과 이미지입니다. 이 작업은 단어의 의미 론적 인코딩과 이미지의 특징과 관련된 개념에 비판적으로 달라집니다. 이 모델은 텍스트의 의미 적 의미를 분석하여 입력으로 주어진 설명에 해당하는 충실도 모델을 생성합니다.

이미지-텍스트 생성

이미지-텍스트 생성 에서이 모델은 이미지를 입력으로 취하고 캡션과 같은 텍스트 출력을 생성합니다. 먼저 이미지의 시각적 내용을 분석합니다. 다음으로 객체, 장면 및 행동을 식별합니다. 그런 다음 모델은 이러한 요소를 텍스트로 전사합니다. 이 생성 모델은 자동 캡션 생성, 장면 설명 및 비디오 장면에서 스토리 제작에 유용합니다.

대조적 인 학습

클립을 포함한 대비 모델은 일치 및 비 일치 이미지 텍스트 쌍의 교육을 통해이를 식별합니다. 이것은 모델이 이미지를 설명에 매핑하고 동시에 잘못된 매핑을 제거하여 언어에 대한 비전의 우수한 대응으로 이어집니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

어떻게 작동합니까?

대조적 인 학습은 이미지와 올바른 설명을 동일한 비전 언어 시맨틱 공간에 매핑합니다. 또한 시력 적으로 독성 독성 샘플 사이의 불일치를 증가시킵니다. 이 프로세스는 모델이 이미지와 관련 텍스트를 모두 이해하는 데 도움이됩니다. 이미지 검색, 제로 샷 분류 및 시각적 질문 응답과 같은 교차 모달 작업에 유용합니다.

클립 (대조 언어 이미지 사전 여파)

클립 또는 대조적 인 언어 이미지 사전 여파는 OpenAI가 개발 한 모델입니다. VLM (Vision Language Models) 필드의 주요 모델 중 하나입니다. 클립은 이미지와 텍스트를 모두 입력으로 처리합니다. 이 모델은 이미지 텍스트 데이터 세트에서 교육을받습니다. 대조적 인 학습을 사용하여 이미지를 텍스트 설명과 일치시킵니다. 동시에 관련된 이미지 텍스트 쌍을 구별합니다.

클립의 작동 방식

클립은 듀얼 인코더 아키텍처를 사용하여 작동합니다. 하나는 이미지와 다른 하나는 텍스트 용입니다. 핵심 아이디어는 이미지와 해당 텍스트 설명을 동일한 고차원 벡터 공간에 포함시켜 모델이 다른 이미지 텍스트 쌍을 비교하고 대조 할 수 있도록하는 것입니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

클립 기능의 주요 단계

  • 이미지 인코딩 : 클립 모델과 마찬가지로이 모델은 VIT라고하는 Vision Transformer를 사용하여 이미지를 인코딩합니다.
  • 텍스트 인코딩 : 동시에 모델은 변압기 기반 텍스트 인코더를 통해 해당 텍스트를 인코딩합니다.
  • 대조적 학습 : 인코딩 된 이미지와 텍스트 사이의 유사성을 비교하여 그에 따라 결과를 제공 할 수 있습니다. 이미지가 설명과 동일한 클래스에 속하는 쌍의 유사성을 극대화하는 반면, 그렇지 않은 경우 쌍에서 최소화합니다.
  • 교차 모달 정렬 : 트레이드 오프는 제로 샷 학습, 이미지 검색 및 역 이미지 합성과 같은 언어와 비전을 일치시키는 작업에서 뛰어난 모델을 생성합니다.

클립의 응용 프로그램

  • 이미지 검색 : 설명이 주어지면 클립은 일치하는 이미지를 찾을 수 있습니다.
  • 제로 샷 분류 : 클립은 특정 범주에 대한 추가 교육 데이터없이 이미지를 분류 할 수 있습니다.
  • 시각적 질문 답변 : 클립은 시각적 내용에 대한 질문을 이해하고 답변을 제공 할 수 있습니다.

코드 예 : 클립으로 이미지-텍스트

아래는 클립을 사용하여 이미지-텍스트 작업을 수행하기위한 예제 코드 스 니펫입니다. 이 예제는 클립이 이미지와 텍스트 설명 세트를 인코딩하는 방법을 보여주고 각 텍스트가 이미지와 일치 할 확률을 계산합니다.

 토치 수입
가져 오기 클립
PIL 가져 오기 이미지에서

# GPU를 사용할 수 있는지 확인하십시오. 그렇지 않으면 CPU를 사용하십시오
Device = "Cuda"인 경우 Torch.cuda.is_available () else "CPU"

# 사전 훈련 된 클립 모델 및 전처리 기능을로드하십시오
모델, preprocess = clip.load ( "vit-b/32", device = device)

# 이미지를로드하고 전처리합니다
image = preprocess (image.open ( "clip.png")). Unsqueeze (0) .to (장치)

# 이미지와 비교하도록 텍스트 설명 세트를 정의합니다.
text = clip.tokenize ([ "다이어그램", "개", "고양이"]).

# 이미지와 텍스트를 인코딩하기 위해 추론을 수행합니다.
Torch.no_grad ()로 :
    image_features = model.encode_image (이미지)
    text_features = model.encode_text (텍스트)

    # 이미지와 텍스트 기능 간의 유사성을 계산합니다
    logits_per_image, logits_per_text = 모델 (이미지, 텍스트)

    # 이미지와 일치하는 각 레이블의 확률을 얻으려면 SoftMax를 적용하십시오.
    probs = logits_per_image.softmax (dim = -1) .cpu (). numpy ()

# 확률을 출력합니다
인쇄 ( "레이블 확률 :", 프로브)
로그인 후 복사

Siglip (시암 일반 언어 이미지 사전 여보)

시암 일반 언어 이미지 사전 해독은 클립과 같은 모델의 기능을 바탕으로 Google이 개발 한 고급 모델입니다. Siglip은 개선 된 아키텍처 및 사전 조정 기술로 대조 학습의 강점을 활용하여 이미지 분류 작업을 향상시킵니다. 제로 샷 이미지 분류의 효율성과 정확성을 향상시키는 것을 목표로합니다.

Siglip의 작동 방식

Siglip은 시암 네트워크 아키텍처를 사용하는데, 여기에는 가중치를 공유하고 유사하고 다른 이미지 텍스트 쌍을 구별하도록 훈련되는 두 개의 병렬 네트워크가 포함됩니다. 이 아키텍처를 통해 Siglip은 이미지와 텍스트 모두에 대한 고품질 표현을 효율적으로 배울 수 있습니다. 이 모델은 다양한 이미지 데이터 세트와 해당 텍스트 설명에 미리 훈련되어 보이지 않는 다양한 작업에 잘 맞출 수 있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

Siglip의 기능의 주요 단계

  • 시암 네트워크 :이 모델은 이미지와 텍스트 입력을 개별적으로 처리하지만 동일한 매개 변수를 공유하는 두 개의 동일한 신경망을 사용합니다. 이 설정을 통해 이미지 및 텍스트 표현을 효과적으로 비교하고 정렬 할 수 있습니다.
  • 대비 학습 : 클립과 유사하게 Siglip은 대조 학습을 사용하여 일치하는 이미지 텍스트 쌍의 유사성을 극대화하고 비 일치 쌍의 경우 최소화합니다.
  • 다양한 데이터에 대한 사전 조정 : SIGLIP는 크고 다양한 데이터 세트에서 미리 훈련되어 제로 샷 시나리오에서 잘 수행 할 수있는 능력을 향상시켜 추가 미세 조정없이 작업에서 테스트됩니다.

Siglip의 응용

  • 제로 샷 이미지 분류 : Siglip은 이미지를 카테고리로 분류하는 데 탁월합니다. 광범위한 사전 여보를 활용하여 명시 적으로 훈련되지 않았습니다.
  • 시각적 검색 및 검색 : 텍스트 쿼리를 기반으로 이미지를 검색하거나 설명 텍스트를 기반으로 이미지를 분류하는 데 사용할 수 있습니다.
  • 컨텐츠 기반 이미지 태깅 : Siglip은 이미지에 대한 설명 태그를 자동으로 생성하여 컨텐츠 관리 및 조직에 유용 할 수 있습니다.

코드 예제 : Siglip을 사용한 제로 샷 이미지 분류

아래는 제로 샷 이미지 분류에 Siglip을 사용하는 방법을 보여주는 예제 코드 스 니펫입니다. 이 예제는 변압기 라이브러리를 사용하여 이미지를 후보 레이블로 분류하는 방법을 보여줍니다.

 Transformers 가져 오기 파이프 라인
PIL 가져 오기 이미지에서
가져 오기 요청

# 사전 훈련 된 Siglip 모델을로드하십시오
image_classifier = 파이프 라인 (task = "Zero-Shot-Image-Classification", model = "Google/Siglip-Base-Patch16-224")

# URL에서 이미지를로드하십시오
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = image.open (requests.get (url, stream = true) .raw)

# 분류를 위해 후보 레이블을 정의하십시오
후보자 _labels = [ "2 Cats", "비행기", "원격"]]]]

# 제로 샷 이미지 분류를 수행합니다
outputs = image_classifier (image, inductate_labels = huptate_labels)

# 결과를 형식화하고 인쇄하십시오
formatted_outputs = [{ "score": Round (output [ "score"], 4), "label": 출력의 출력에 대한 출력 [ "label"]}]
print (formatted_outputs)
로그인 후 복사

여기에서 Siglip에 대한 자세한 내용을 읽으십시오.

훈련 비전 언어 모델 (VLMS)

교육 비전 언어 모델 (VLMS) 교육 몇 가지 주요 단계가 포함됩니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

  • 데이터 수집 : 짝을 이루는 이미지와 텍스트의 대규모 데이터 세트를 수집하여 모델을 효과적으로 훈련시키기위한 다양성과 품질을 보장합니다.
  • 사전 조정 : 변압기 아키텍처를 사용하여 VLM은 방대한 양의 이미지 텍스트 데이터에 사기를합니다. 이 모델은 이미지 또는 텍스트의 마스크 부분 예측과 같은 자체 감독 학습 작업을 통해 시각적 및 텍스트 정보를 인코딩하는 법을 배웁니다.
  • 미세 조정 : 사전 처리 된 모델은 더 작은 작업 별 데이터 세트를 사용하여 특정 작업에 미세 조정됩니다. 이를 통해 모델이 이미지 분류 또는 텍스트 생성과 같은 특정 응용 프로그램에 적응할 수 있습니다.
  • 생성 교육 : 생성 VLM의 경우 교육은 학습 된 표현을 기반으로 텍스트에서 이미지 나 이미지에서 텍스트를 생성하는 것과 같은 새로운 샘플을 생성하는 법을 배우는 것이 포함됩니다.
  • 대조적 학습 :이 기술은 양의 쌍에 대한 유사성을 극대화하고 음의 쌍에 대한 최소화함으로써 유사한 데이터와 다른 데이터를 구별하는 모델의 능력을 향상시킵니다.

Paligemma 이해

Paligemma는 구조화 된 다단계 교육 접근법을 통해 이미지 및 텍스트 이해를 향상시키기 위해 설계된 VLM (Vision Language Model)입니다. Siglip 및 Gemma의 구성 요소를 통합하여 고급 다중 모드 기능을 달성합니다. 다음은 성적표 및 제공된 데이터를 기반으로 한 자세한 개요입니다.

작동 방식

  • 입력 : 모델은 텍스트와 이미지 입력을 모두 가져옵니다. 텍스트 입력은 선형 투영 및 토큰 연결을 통해 처리되는 반면 이미지는 모델의 비전 구성 요소에 의해 인코딩됩니다.
  • SIGLIP :이 구성 요소는 이미지 처리를 위해 Vision Transformer (VIT-SQ400M) 아키텍처를 사용합니다. 시각적 데이터를 텍스트 데이터와 함께 공유 기능 공간에 매입합니다.
  • Gemma Decoder : Gemma Decoder는 텍스트와 이미지의 기능을 결합하여 출력을 생성합니다. 이 디코더는 멀티 모달 데이터를 통합하고 의미있는 결과를 생성하는 데 중요합니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

Paligemma의 훈련 단계

이제 아래 Paligemma의 훈련 단계를 살펴 보겠습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서

  • 단봉 훈련 :
    • Siglip (vit-sq400m) : 강력한 시각적 표현을 구축하기 위해 이미지만으로도 훈련합니다.
    • Gemma-2B : 강력한 텍스트 임베딩을 생성하는 데 중점을 둔 텍스트 만 훈련합니다.
  • 멀티 모달 훈련 :
    • 224px, IB 예제 :이 단계 에서이 모델은 입력 예 (IB)를 사용하여 다중 모드 이해를 개선하기 위해 224px의 해상도에서 이미지 텍스트 쌍을 처리하는 법을 배웁니다.
  • 해상도 증가 :
    • 4480X & 896PX : 이미지 및 텍스트 데이터의 해상도를 높이면 더 높은 세부 사항과 복잡한 멀티 모드 작업을 처리 할 수있는 모델의 기능을 향상시킵니다.
  • 옮기다 :
    • 해상도, 에포크, 학습 속도 : 해상도, 교육 에포크 수 및 학습 속도와 같은 주요 매개 변수를 조정하여 성능을 최적화하고 학습 된 기능을 새로운 작업으로 전송합니다.

여기에서 Paligemma에 대해 자세히 알아보십시오.

결론

VLMS (Vision Language Models)에 대한이 안내서는 비전과 언어 기술 결합에 대한 혁신적인 영향을 강조했습니다. 객체 감지 및 이미지 세분화, 클립과 같은 주목할만한 모델 및 다양한 교육 방법론과 같은 필수 기능을 탐색했습니다. VLM은 시각적 및 텍스트 데이터를 원활하게 통합하여 향후보다 직관적이고 고급 응용 프로그램의 단계를 설정하여 AI를 발전시키고 있습니다.

자주 묻는 질문

Q1. VLM (Vision Language Model)이란 무엇입니까?

A. VLM (Vision Language Model)은 시각 및 텍스트 데이터를 통합하여 이미지와 텍스트에서 정보를 이해하고 생성합니다. 또한 이미지 캡션 및 시각적 질문 응답과 같은 작업도 가능합니다.

Q2. 클립은 어떻게 작동합니까?

A. 클립은 대조적 인 학습 접근법을 사용하여 이미지 및 텍스트 표현을 정렬합니다. 이미지를 텍스트 설명과 효과적으로 일치시킬 수 있습니다.

Q3. VLM의 주요 기능은 무엇입니까?

A. VLMS는 객체 감지, 이미지 세분화, 임베딩 및 비전 질문 응답에 대한 탁월한 작업을 수행하여 복잡한 작업을 수행합니다.

Q4. VLM에서 미세 조정의 목적은 무엇입니까?

A. 미세 조정은 미리 훈련 된 VLM을 특정 작업 또는 데이터 세트에 적응시켜 특정 응용 프로그램의 성능과 정확도를 향상시킵니다.

위 내용은 비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! 나는 Cursor AI와 함께 Vibe 코딩을 시도했는데 놀랍습니다! Mar 20, 2025 pm 03:34 PM

Vibe Coding은 끝없는 코드 라인 대신 자연 언어를 사용하여 애플리케이션을 생성함으로써 소프트웨어 개발의 세계를 재구성하고 있습니다. Andrej Karpathy와 같은 비전가들로부터 영감을 얻은이 혁신적인 접근 방식은 Dev가

2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! 2025 년 2 월 2 일 Genai 출시 : GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

2025 년 2 월은 Generative AI의 또 다른 게임 변화 달이었으며, 가장 기대되는 모델 업그레이드와 획기적인 새로운 기능을 제공합니다. Xai 's Grok 3 및 Anthropic's Claude 3.7 Sonnet, Openai 's G에 이르기까지

물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? 물체 감지에 Yolo V12를 사용하는 방법은 무엇입니까? Mar 22, 2025 am 11:07 AM

Yolo (한 번만 보이면)는 주요 실시간 객체 감지 프레임 워크였으며 각 반복은 이전 버전에서 개선되었습니다. 최신 버전 Yolo V12는 정확도를 크게 향상시키는 발전을 소개합니다.

chatgpt 4 o를 사용할 수 있습니까? chatgpt 4 o를 사용할 수 있습니까? Mar 28, 2025 pm 05:29 PM

ChatGpt 4는 현재 이용 가능하고 널리 사용되며 ChatGpt 3.5와 같은 전임자와 비교하여 상황을 이해하고 일관된 응답을 생성하는 데 상당한 개선을 보여줍니다. 향후 개발에는보다 개인화 된 인터가 포함될 수 있습니다

창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) 창의적인 프로젝트를위한 최고의 AI 아트 발전기 (무료 & amp; 유료) Apr 02, 2025 pm 06:10 PM

이 기사는 최고의 AI 아트 생성기를 검토하여 자신의 기능, 창의적인 프로젝트에 대한 적합성 및 가치에 대해 논의합니다. Midjourney를 전문가에게 최고의 가치로 강조하고 고품질의 사용자 정의 가능한 예술에 Dall-E 2를 추천합니다.

Google ' S Gencast : Gencast Mini 데모와의 일기 예보 Google ' S Gencast : Gencast Mini 데모와의 일기 예보 Mar 16, 2025 pm 01:46 PM

Google Deepmind 's Gencast : 일기 예보를위한 혁신적인 AI 일기 예보는 기초 관측에서 정교한 AI 구동 예측으로 이동하여 극적인 변화를 겪었습니다. Google Deepmind의 Gencast, 획기적인

chatgpt보다 어떤 AI가 더 낫습니까? chatgpt보다 어떤 AI가 더 낫습니까? Mar 18, 2025 pm 06:05 PM

이 기사에서는 AI 모델이 Lamda, Llama 및 Grok과 같은 Chatgpt를 능가하는 것에 대해 논의하여 정확성, 이해 및 산업 영향의 장점을 강조합니다. (159 자).

O1 대 GPT-4O : OpenAI의 새로운 모델이 GPT-4O보다 낫습니까? O1 대 GPT-4O : OpenAI의 새로운 모델이 GPT-4O보다 낫습니까? Mar 16, 2025 am 11:47 AM

OpenAi의 O1 : 12 일 선물 Spree는 아직 가장 강력한 모델로 시작합니다. 12 월의 도착은 세계의 일부 지역에서 전 세계적으로 속도가 저하 된 눈송이를 가져 오지만 Openai는 막 시작되었습니다. Sam Altman과 그의 팀은 12 일 선물을 시작하고 있습니다.

See all articles