> 기술 주변기기 > 일체 포함 > 실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

Lisa Kudrow
풀어 주다: 2025-03-19 09:41:11
원래의
416명이 탐색했습니다.

Molmo : 고품질 오픈 데이터 세트에 구축 된 오픈 비전 언어 모델

독점적이고 대형 비전 언어 모델 (VLMS)의 우위는 개방형 연구를 방해합니다. 오픈 소스 대안은 종종 독점 모델에 의해 생성 된 합성 데이터에 의존하여 진정한 개방성을 제한합니다. 정교한 VLM 인 Molmo는 개방형 데이터 세트 및 독립적 인 교육 방법론에서 독점적으로 훈련 된 고품질 멀티 모드 기능을 활용하여이를 해결합니다.

수반되는 PIXMO 데이터 세트는 Molmo의 성공에 중요합니다. 인간 음성 주석을 사용하여 자세한 이미지 캡션 쌍을 만들어 데이터 접근성 제한을 극복합니다. 이 접근법은 풍부하고 고밀도 캡션을 생성하여 합성 데이터 세트에 내재 된 한계를 피합니다.

Molmo의 아키텍처는 표준 멀티 모드 디자인입니다. 언어 모델과 결합 된 비전 인코더입니다.

실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

주요 기능 :

  • Pixmo 데이터 세트 : Molmo의 성능의 기초.
  • 건축학:
    • 이미지 사전 프로세서 : 멀티 스케일의 멀티 크롭 이미지 섹션을 생성합니다.
    • Vision Encoder : OpenAi의 VIT-L/14 336PX 클립 모델 (우수한 멀티 크롭 핸들링을 위해 Siglip으로 선택됨).
    • 커넥터 : MLP 기반 프로젝션은 이미지 임베딩을 언어 모델의 크기와 정렬합니다.
    • 디코더 전용 변압기 LLM : 다양한 LLM (Olmo, Olmoe, Qwen2, Mistral)에서 유연성을 제공합니다.
  • 교육 : 2 단계 프로세스 :
    • 멀티 모달 사전 훈련 : pixmo-cap을 사용한 캡션 생성에 중점을 둡니다. 단일 단계 접근법은 다단계 방법의 복잡성을 피합니다.
    • 감독 된 미세 조정 : 다양한 작업 및 데이터 세트 (Pixmo-Askmodelanything, Pixmo-Points 등)를 활용합니다. 고품질 데이터에 의존하여 RLHF가 필요하지 않습니다.
  • 평가 : 11 개의 벤치 마크 데이터 세트 및 인적 선호도 연구에서 엄격한 테스트. 결과는 Molmo가 독점 모델과 경쟁하고 때로는 초과하는 것을 보여줍니다.

데이터 세트 세부 사항 :

  • PIXMO-CAP : 60-90 초의 음성 설명의 세부 캡션을 가진 712k 이상의 이미지.
  • Pixmo-Askmodelanything : 이미지 기반 질문 응답 쌍.
  • pixmo-points : 공간 이해를위한 포인트 기반 주석.
  • 기타 데이터 세트 : pixmo-clocks, pixmo-docs, pixmo-capqa.

실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

건축 깊은 다이빙 :

실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

멀티 스케일의 멀티 크롭 이미지 처리는 이미지 컨텍스트에 대한 모델의 이해를 향상시킵니다. Siglip보다 클립의 선택은 고해상도의 멀티 크롭 데이터에 대한 우수한 성능으로 정당화됩니다. MLP 커넥터 및 풀링 레이어는 치수와 언어 구성 요소 사이의 효과적인 의사 소통을 보장합니다. 디코더 전용 변압기 LLM을 사용하면 적응 가능한 모델 크기 및 성능이 가능합니다.

실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

고품질 데이터에 의해 촉진되는 단일 단계 사전 훈련은 효율적이고 효과적인 것으로 판명됩니다. 다양한 작업에 대한 후속 감독 미세 조정은 모델의 기능을 더욱 개선합니다. RLHF의 부재는 의도적 인 선택으로 PixMO 데이터 세트의 풍부함을 활용합니다.

벤치 마크 비교는 Llava, Qwen2-VL 및 Paligemma를 포함한 다른 VLM에 대한 Molmo의 성능을 강조하여 경쟁 우위를 보여줍니다. 인적 선호 테스트는 사용자 친화 성을 더욱 검증합니다.

실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

실습 예제 (약어) :

Colab 노트북을 사용한 코드 예제를 포함한 자세한 실습 가이드는 모델을로드하고 이미지를 처리하며 출력을 생성하는 방법을 보여줍니다. 이 예제는 이미지에서 구조화 된 정보를 추출하여 Molmo의 적응성을 보여주는 방법을 보여줍니다. 패치로 나누어 크고 복잡한 이미지를 처리하는 기술도 탐색됩니다.

실습 실험을 통해 Deep-Dive Molmo 및 Pixmo실습 실험을 통해 Deep-Dive Molmo 및 Pixmo

결론:

Molmo는 오픈 소스 VLM의 상당한 발전을 나타냅니다. 고품질의 개방형 데이터 세트, 효율적인 교육 및 유연한 아키텍처에 대한 약속은 광범위한 비전 언어 작업을위한 강력하고 다양한 도구로 배치합니다. 자세한 설명과 실습 예제는 그 기능에 대한 포괄적 인 이해를 제공합니다.

자주 묻는 질문 (약어) :

  • Clip vs. Siglip : 클립의 멀티 크롭, 고해상도 이미지의 탁월한 처리가 선택의 주요 원인입니다.
  • 데이터 세트 장점 : Pixmo의 인간이 주석화 된 데이터는 합성 데이터 세트에 비해 더 풍부하고 자연스러운 시각적 이해를 제공합니다.
  • 사용자 정의 : Molmo의 유연성은 맞춤형 프롬프트를 통해 다양한 작업 및 입력 유형에 적응할 수 있습니다.

위 내용은 실습 실험을 통해 Deep-Dive Molmo 및 Pixmo의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿