Coca : 대조적 인 캡션자는 시각적으로 설명 된 이미지 텍스트 파운데이션 모델입니다-일체 포함-php.cn

Coca : 대조적 인 캡션자는 시각적으로 설명 된 이미지 텍스트 파운데이션 모델입니다

Jennifer Aniston

풀어 주다： 2025-03-10 11:17:15

원래의

242명이 탐색했습니다.

명확성과 정확성을 위해 편집 된이 DataCamp 커뮤니티 튜토리얼은 혁신적인 대비 캡션 (COCA) 모델에 중점을 둔 이미지 텍스트 기초 모델을 탐색합니다. Coca는 Clip 및 Simvlm과 같은 모델의 강점을 단일 아키텍처에 통합하여 대조적이고 생성적인 학습 목표를 고유하게 결합합니다.

기초 모델 : 깊은 다이브 CoCa: Contrastive Captioners are Image-Text Foundation Models Visually Explained 대규모 데이터 세트에 미리 훈련 된

 기초 모델은 다양한 다운 스트림 작업에 적응할 수 있습니다.  NLP는 기초 모델 (GPT, BERT)의 급증을 보았지만 비전 및 비전 언어 모델은 여전히 발전하고 있습니다. 연구는 단일 코더 모델, 대조적 손실을 가진 이미지 텍스트 듀얼 인코더, 생성 목표를 가진 인코더 디코더 모델의 세 가지 주요 접근 방식을 탐구했습니다.  각 접근법은 한계가 있습니다. 
  키 용어 :  <p>
<strong>
</strong>  기초 모델 :  미리 훈련 된 모델은 다양한 응용 프로그램에 적응할 수 있습니다
  대비 손실 :  유사하고 다른 입력 쌍을 비교하는 손실 함수.
  교차 모달 상호 작용 :  다른 데이터 유형 간의 상호 작용 (예 : 이미지 및 텍스트).
  Encoder-Decoder 아키텍처 : </p> 신경 네트워크 처리 입력 및 생성 출력.
  제로 샷 학습 : <p> 보이지 않는 데이터 클래스에 대한 예측
  클립 : </p> 대조적 인 언어 이미지 사전 훈련 모델. 
  simvlm : <p> 간단한 시각적 언어 모델. 
<strong>
  모델 비교 : </strong> 
</p>
  단일 인코더 모델 :

로그인 후 복사

는 제로 샷 분류 및 이미지 검색에 우수하지만 융합 된 이미지 텍스트 표현 (예 : 시각적 질문 응답)이 필요한 작업이 제한적입니다. 생성 모델 (SIMVLM) : vqa 및 이미지 캡션에 적합한 공동 이미지 텍스트 표현에 교차 모달 상호 작용을 사용합니다.
Coca는 대조적이고 생성적인 접근법의 강점을 통일하는 것을 목표로합니다. 대조적 인 손실을 사용하여 이미지 및 텍스트 표현을 정렬하고 공동 표현을 생성하기 위해 생성 목표 (캡션 손실)를 사용합니다. 코카 아키텍처 : ~~코카는 표준 인코더 디코더 구조를 사용합니다. 그것의 혁신은 분리 된 디코더~~

는 대조 학습 ([CLS] 토큰 사용)를위한 단단한 텍스트 표현을 생성합니다. 상단 디코더 : 는 생성 학습을위한 멀티 모달 이미지 텍스트 표현을 생성합니다. 두 디코더 모두 인과 마스킹을 사용합니다
공유 벡터 공간에서 관련 이미지 텍스트 쌍과 별도의 관련이없는 쌍을 클러스터하는 법을 배웁니다. 단일 풀링 된 이미지 임베딩이 사용됩니다. 생성 목표 :

결론 : 코카는 이미지 텍스트 기초 모델에서 중요한 발전을 나타냅니다. 결합 된 접근 방식은 다양한 작업의 성능을 향상시켜 다운 스트림 애플리케이션을위한 다양한 도구를 제공합니다. 고급 딥 러닝 개념에 대한 이해를 높이려면 Keras 코스를 사용한 DataCamp의 고급 딥 러닝을 고려하십시오.

자연 언어 감독에서 전송 가능한 시각적 모델 학습 대비 캡션 자와 함께 이미지 텍스트 사전 훈련

위 내용은 Coca : 대조적 인 캡션자는 시각적으로 설명 된 이미지 텍스트 파운데이션 모델입니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!