Molmo : 고품질 오픈 데이터 세트에 구축 된 오픈 비전 언어 모델
독점적이고 대형 비전 언어 모델 (VLMS)의 우위는 개방형 연구를 방해합니다. 오픈 소스 대안은 종종 독점 모델에 의해 생성 된 합성 데이터에 의존하여 진정한 개방성을 제한합니다. 정교한 VLM 인 Molmo는 개방형 데이터 세트 및 독립적 인 교육 방법론에서 독점적으로 훈련 된 고품질 멀티 모드 기능을 활용하여이를 해결합니다.
수반되는 PIXMO 데이터 세트는 Molmo의 성공에 중요합니다. 인간 음성 주석을 사용하여 자세한 이미지 캡션 쌍을 만들어 데이터 접근성 제한을 극복합니다. 이 접근법은 풍부하고 고밀도 캡션을 생성하여 합성 데이터 세트에 내재 된 한계를 피합니다.
Molmo의 아키텍처는 표준 멀티 모드 디자인입니다. 언어 모델과 결합 된 비전 인코더입니다.
주요 기능 :
데이터 세트 세부 사항 :
건축 깊은 다이빙 :
멀티 스케일의 멀티 크롭 이미지 처리는 이미지 컨텍스트에 대한 모델의 이해를 향상시킵니다. Siglip보다 클립의 선택은 고해상도의 멀티 크롭 데이터에 대한 우수한 성능으로 정당화됩니다. MLP 커넥터 및 풀링 레이어는 치수와 언어 구성 요소 사이의 효과적인 의사 소통을 보장합니다. 디코더 전용 변압기 LLM을 사용하면 적응 가능한 모델 크기 및 성능이 가능합니다.
고품질 데이터에 의해 촉진되는 단일 단계 사전 훈련은 효율적이고 효과적인 것으로 판명됩니다. 다양한 작업에 대한 후속 감독 미세 조정은 모델의 기능을 더욱 개선합니다. RLHF의 부재는 의도적 인 선택으로 PixMO 데이터 세트의 풍부함을 활용합니다.
벤치 마크 비교는 Llava, Qwen2-VL 및 Paligemma를 포함한 다른 VLM에 대한 Molmo의 성능을 강조하여 경쟁 우위를 보여줍니다. 인적 선호 테스트는 사용자 친화 성을 더욱 검증합니다.
실습 예제 (약어) :
Colab 노트북을 사용한 코드 예제를 포함한 자세한 실습 가이드는 모델을로드하고 이미지를 처리하며 출력을 생성하는 방법을 보여줍니다. 이 예제는 이미지에서 구조화 된 정보를 추출하여 Molmo의 적응성을 보여주는 방법을 보여줍니다. 패치로 나누어 크고 복잡한 이미지를 처리하는 기술도 탐색됩니다.
결론:
Molmo는 오픈 소스 VLM의 상당한 발전을 나타냅니다. 고품질의 개방형 데이터 세트, 효율적인 교육 및 유연한 아키텍처에 대한 약속은 광범위한 비전 언어 작업을위한 강력하고 다양한 도구로 배치합니다. 자세한 설명과 실습 예제는 그 기능에 대한 포괄적 인 이해를 제공합니다.
자주 묻는 질문 (약어) :
위 내용은 실습 실험을 통해 Deep-Dive Molmo 및 Pixmo의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!