동물에게 눈이 있는 것처럼 Yann LeCun 팀의 Cambrian-1을 통해 AI는 강력한 시각적 표현 학습 기능을 얻을 수 있습니다.
오랜 세월 동안 많은 철학자들이 다음 질문을 탐구해 왔습니다. 언어의 의미를 이해하려면 감각을 기반으로 해야 합니까? 철학자들의 의견이 일치하지 않지만 한 가지는 분명합니다. 견고하고 효과적인 감각 기반이 최소한 도움이 될 수 있다는 것입니다.
예를 들어, 과학자들은 일반적으로 캄브리아기 폭발 중 시각의 출현이 초기 동물 진화의 핵심 단계였다고 믿습니다. 이는 동물이 먹이를 더 잘 찾고 포식자를 피하는 데 도움이 되었을 뿐만 아니라 동물 자체의 진화에도 도움이 되었습니다. 실제로 인간(및 거의 모든 동물)의 지식 대부분은 시각, 청각, 촉각, 미각, 후각 등 신체와 상호 작용하는 감각 경험을 통해 획득됩니다. 이러한 감각적 경험은 우리 주변 세계에 대한 이해의 기초가 되며 우리가 행동을 취하고 결정을 내리는 데 도움이 됩니다.
이러한 아이디어는 철학적 개념을 탐구하는 데 사용될 수 있을 뿐만 아니라 실용적인 가치도 있습니다. 특히 최근 MLLM(Multimodal Large Language Model)의 개발로 인해 시각적 표현 학습과 언어 이해가 실제 적용의 핵심으로 자리 잡았습니다. 언어 모델은 매우 강력한 확장 동작을 나타내며 최근 다중 모드 학습의 발전은 더 크고 더 나은 LLM의 이점을 크게 얻었습니다.
한편, 시각적 구성요소에 대한 디자인 선택은 아직 완전히 탐구되지 않았으며, 이 분야의 탐색은 시각적 표현 학습에 대한 연구와 다소 단절되어 있습니다. 이는 주로 이 분야의 연구가 매우 어렵기 때문입니다. MLLM에는 복잡한 교육 및 평가 프로세스가 포함되며 고려해야 할 설계 선택이 많이 있습니다.
최근 뉴욕 대학의 Xie Saining과 Yann LeCun 팀은 이러한 격차를 메우기 위해 비전을 중심으로 MLLM을 탐색했으며, 이러한 탐색 결과를 기반으로 Cambrian-1(Cambrian 1) 시리즈 모델도 구축했습니다. (이 기사의 공동 저자는 Shengbang Tong, Ellis Brown 및 Penghao Wu입니다.)
논문 제목: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
논문 주소 : https://arxiv.org/pdf/2406.16860
웹사이트: https://cambrian-mllm.github.io
코드: https://github.com/cambrian-mllm/ cambrian
모델: https://huggingface.co/nyu-visionx/
데이터: https://huggingface.co/datasets/nyu-visionx/Cambrian-10M
CV-Bench: https:/ /huggingface.co/datasets/nyu-visionx/CV-Bench
평가: https://github.com/cambrian-mllm/cambrian
특히 그들은 MLLM 명령어를 미세 조정합니다. 그림 1과 같이 표현 평가 프로토콜이 작성되었습니다.
팀은 다음과 같이 말했습니다. “우리 연구의 동기는 현재 다중 모드 학습 연구의 두 가지 잠재적인 문제에서 비롯됩니다. 1) 효과적인 시각적 학습의 단점을 보완할 수 있는 지름길인 언어에 대한 과도하고 성급한 의존. 표현 2) 기존 벤치마크는 실제 시나리오에 대한 충분한 지침을 제공하지 못할 수 있습니다. 강력한 다중 모드 이해를 위해서는 시각적 기반이 중요합니다. "
연구원들이 이미 그렇게 했듯이 이러한 문제는 근거가 없습니다. 주목하기 시작함: 시각적 기반 일부 어려운 실제 애플리케이션에 MLLM을 적용하는 데 병목 현상이 발생하고 있습니다.
다른 관점에서 보면 전통적인 시각적 표현 학습 평가 프로토콜은 포화 상태가 되었으며 실제 분포에서 발견되는 다양한 지각 문제를 반영하지 못합니다. 반면에 시각적 질문 응답(VQA) 형태의 언어를 사용하면 유연하고 강력한 평가 프로토콜을 제공합니다.
Xie Saining과 Yann LeCun 팀의 이 연구 목표는 이 새로운 프로토콜 디자인을 탐색하고 미래의 시각적 표현 개발을 안내할 새로운 통찰력을 얻는 것입니다. 또한 이 포괄적인 설정에서 시각적 표현을 더 잘 평가하기 위해 기존 비전 벤치마크를 VQA 형식으로 변환하여 비전 중심 MLLM 벤치마크 CV-Bench도 개발했습니다.
Cambrian-1은 MLLM 설계에 대한 중요한 통찰력을 제공하는 5가지 핵심 요소를 기반으로 구축되었습니다.
시각적 표현: 팀은 다양한 시각적 인코더와 그 조합을 탐색했습니다.
커넥터 디자인 : 그들은 토큰 수를 줄이면서 LLM과 시각적 기능을 통합할 수 있는 동적이며 공간 인식이 가능한 새로운 유형의 커넥터를 설계했습니다.
지시 미세 조정 데이터: 특히 분배 균형의 중요성을 강조한 공개 데이터 소스를 기반으로 고품질의 시각적 지시 미세 조정 데이터를 편집했습니다.
수업 미세 조정 레시피: 수업 미세 조정을 위한 전략과 실제 조치에 대해 논의합니다.
벤치마크 평가: 기존 MLLM 벤치마크를 분석하여 직관적으로 4개 그룹으로 나누어 새로운 비전 중심 벤치마크 CV-Bench를 제안했습니다.
이러한 원칙을 바탕으로 팀은 여러 벤치마크를 선도하고 특히 비전 중심 작업에 탁월한 Cambrian-1 시리즈 모델을 구축했습니다. 또한 팀은 연구의 모델 가중치, 오픈 소스 코드, 데이터 세트, 모델 훈련 및 평가를 위한 세부 계획을 공개했습니다.
다중 모드 LLM 기본
MLLM 연구의 주요 구성 요소에는 대규모 언어 모델, 시각적 인코더, 다중 모드 커넥터, 데이터 조립 프로세스, 명령 미세 조정 전략, 평가 및 벤치마킹이 포함됩니다. 구체적인 지침 및 관련 연구는 원본 논문을 참조하세요.
MLLM을 통한 시각적 표현 평가
현재 MLLM에서 사용되는 시각적 인코더는 주로 CLIP입니다. 이미 언어와 사전 정렬되어 있고 LLM 토큰 공간에 쉽게 적응할 수 있기 때문입니다. 그러나 강력한 언어 사전은 양날의 검이 될 수 있습니다. 효과적인 시각적 표현 학습의 단점을 보완하고 시각적 표현 학습에 대한 광범위한 연구에서 얻은 통찰력을 줄일 수 있습니다.
팀에서는 다양한 시각적 인코더 선택(그림 2 참조)이 MLLM의 다중 모드 기능에 미치는 영향을 체계적으로 평가했습니다.
그들은 또한 MLLM 평가를 시각적 표현 방법을 평가하기 위한 강력한 프레임워크로 사용하여 실제 시나리오의 다양한 지각 문제를 보다 충실하게 반영함으로써 사람들이 더 나은 시각적 표현을 개발하도록 더 잘 안내할 것을 옹호합니다. 아래에서는 연구 과정과 결과를 간략하게 소개하겠습니다. 자세한 내용은 원문을 참조하시기 바랍니다.
분석 벤치마크
팀은 23개의 서로 다른 시각적 백본 네트워크를 기반으로 2단계 지침 미세 조정 프로세스를 사용하여 MLLM을 교육했습니다. 먼저 ShareGPT-4V의 1.2M 어댑터 데이터를 기반으로 커넥터를 교육한 다음 미세 조정합니다. 737K 지침 조정 데이터에서 커넥터와 LLM을 동시에 미세 조정합니다.
시각적 입력이 있거나 없는 모델의 성능을 비교하여(그림 3 참조) 팀은 다음과 같은 결과를 얻었습니다.
발견 1: 대부분의 벤치마크는 비전 중심 기능을 정확하게 측정하지 못하며, 몇 가지만 있습니다. 이러한 기능을 측정할 수 있는 벤치마크는 매우 적습니다.
Cambrian Vision-Centric Benchmark (CV-Bench)
기존 비전 중심 벤치마크의 한계를 해결하기 위해 팀에서는 CV-Bench를 제안했습니다. 여기에는 사람이 검사한 2638개의 샘플이 포함되어 있는데, 이는 다른 비전 중심 MLLM 벤치마크보다 훨씬 많은 것입니다(RealWorldQA보다 3.5배, MMVP보다 8.8배 더 많습니다).
그림 4와 표 1에서 볼 수 있듯이 CV-Bench는 공간적 관계와 타겟 수를 통해 2차원 이해 능력을 평가할 수 있으며, 깊이 순서와 상대 거리를 통해 3차원 이해 능력을 평가할 수 있습니다.
발견 2: 기존 비전 벤치마크를 VQA 작업에 효과적으로 적용하여 비전 중심 MLLM 기능을 평가할 수 있습니다.
지시 미세 조정 방식
MLLM은 사전 학습 LLM 및 시각적 백본 네트워크로 시작한 다음 프로젝터(MLP)와 같은 커넥터를 통해 이러한 모듈을 연결합니다. 팀은 광범위한 실험을 통해 다양한 교육 미세 조정 방식을 탐색하고 다음과 같은 결과를 얻었습니다.
단일 단계 훈련과 이중 단계 훈련 사이의 선택과 관련하여 팀은 다음을 발견했습니다.
발견 3: 더 많은 어댑터 데이터를 사용하면 이중 단계 훈련이 결과를 더욱 향상시킬 수 있습니다.
비주얼 인코더를 고정할지 여부와 관련하여 팀은 다음을 발견했습니다.
발견 사항 4: 비주얼 인코더를 고정하지 않으면 많은 이점이 있습니다. 언어 감독 모델은 항상 유용하며, SSL 모델은 비전 중심 벤치마크에 특히 유용합니다.
MLLM을 시각적 표현 평가자로 사용
팀에서는 MLLM을 사용하여 시각적 표현을 평가하는 방법을 연구했습니다. 결과는 그림 6에 나와 있습니다. 결과는 다음과 같습니다.
발견 5: 고해상도 인코더는 그래프 또는 비전 중심 벤치마크에서 성능을 크게 향상시킬 수 있으며 컨벌루션 네트워크 기반 아키텍처는 이러한 작업에 이상적으로 적합합니다.
또한 자기 지도 모델을 기반으로 하는 MLLM의 지속적인 미세 조정이 언어 지도 모델과 유사한 성능을 달성할 수 있는지 연구했습니다. 결과는 그림 7에 나와 있습니다.
발견 6: 언어 감독은 강력한 장점이 있지만, 충분한 데이터와 적절한 미세 조정이 있으면 SSL 방식을 통해 성능 격차를 줄일 수 있습니다.
여러 시각적 인코더 결합
팀에서는 또한 여러 시각적 인코더를 결합하여 더욱 강력한 MLLM을 구축할 수 있는 가능성도 조사했으며 그 결과는 표 3에 나와 있습니다.
발견 7: 여러 시각적 인코더(시각적 SSL 모델 포함)를 결합하면 특히 비전 중심 작업의 경우 다양한 벤치마크에서 MLLM 성능이 향상됩니다.
SVA(Spatial Vision Aggregator): 새로운 커넥터 디자인
여러 시각적 인코더의 기능을 효과적으로 집계하고 보간으로 인한 정보 손실을 방지하기 위해 학습 가능한 암시적 쿼리 세트를 사용하여 여러 시각적 기능과 상호 작용할 수 있습니다. 교차 관심 레이어를 통해.
특히 새로운 접근 방식은 두 가지 새로운 비전 중심 설계 원칙을 통합합니다.
쿼리의 각 토큰에 대한 집계 공간을 명시적으로 정의하여 공간 유도 편향을 도입합니다.
LLM 레이어 전반에 걸쳐 시각적 특징을 여러 번 집계하면 모델이 필요한 시각적 정보에 반복적으로 액세스하고 통합할 수 있습니다.
이 새로운 구성 방법은 LLM과의 집계 및 통합 중에 시각적 데이터의 공간 구조를 유지하면서 다양한 특징 해상도를 가진 여러 시각적 인코더에 유연하게 적응할 수 있습니다.
이전 섹션의 최고의 비전 모델과 Vicuna-1.5-7B 기본 LLM의 조합을 사용하여 팀은 SVA 모듈의 유용성을 입증했습니다.
표 4는 SVA가 OCR 및 표 형식 범주(고해상도 기능 이해 필요)가 크게 향상되어 모든 벤치마크 범주에서 두 가지 대조 기술보다 성능이 우수하다는 것을 보여줍니다.
한 단계 더 나아가 OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024의 조합을 기반으로 절제 실험을 수행했습니다. 결과는 표 5에 나와 있습니다.
발견 8: 공간 유도 편향과 LLM과 시각적 기능 간의 깊은 상호 작용은 시각적 기능을 더 효과적으로 집계하고 압축하는 데 도움이 됩니다.
MLLM 학습을 위한 명령어 미세 조정 데이터
데이터 수집
기존 데이터 소스에서 명령어 미세 조정 데이터 수집:
팀은 다중 모드 벤치마크와 시각적 상호 작용 데이터가 포함된 데이터 세트를 모두 사용했습니다(예: , 시각적 질의응답(VQA) 및 OCR 데이터), 소량의 고품질 순수 언어 지시 준수 데이터도 수집되었습니다. 또한 데이터를 일반 대화, OCR, 계산, 코딩, 수학, 과학 및 순수 언어 데이터 등 다양한 범주로 분리했습니다. 그림 9는 데이터 소스를 보여줍니다.
타겟팅된 인터넷 데이터 수집 엔진: 그림 9에서 볼 수 있듯이 데이터 분포가 불균형합니다.
대규모의 신뢰할 수 있는 고품질 지식 기반 명령어 미세 조정 데이터를 생성하기 위해 팀에서는 데이터 엔진을 제안했습니다. 엔진은 대상 도메인과 하위 도메인(예: 물리학)을 선택한 다음 GPT-4와 같은 LLM을 사용하여 주제(예: 뉴턴의 법칙)를 식별할 수 있습니다. 그런 다음 각 주제에 대해 Wikipedia와 같은 신뢰할 수 있는 정보 소스를 검색합니다. 팀은 Wikipedia에서 추출한 이미지-텍스트 쌍의 품질이 높다는 것을 발견했습니다.
그 후 팀은 파서를 사용하여 이미지 설명 튜플을 추출한 다음 신중하게 설계된 프롬프트를 통해 설명 텍스트를 GPT-3.5와 같은 LLM에 공급하여 명령 유형 질문 및 답변 쌍을 생성할 수 있도록 합니다. 이미지. 이러한 질문-답변 쌍과 이미지는 VQA 데이터 세트를 구성합니다.
Cambrian-10M: 대규모 명령 미세 조정 데이터 풀을 만들고 이름을 Cambrian-10M으로 지정했습니다. 여기에는 약 9784,000개의 데이터 포인트가 포함됩니다. 그림 9는 그 구성을 보여줍니다.
데이터 재구성
데이터 균형을 개선하고 데이터 비율을 조정하기 위해(그림 10, 11 참조) 팀에서는 Cambrian-10M을 재구성했습니다.
마침내 작지만 더 높은 품질의 데이터 세트 Cambrian-7M을 얻었습니다. 표 6과 7은 명령어 데이터를 재구성하는 것의 이점을 보여줍니다. Cambrian-7M에는 샘플 수가 적더라도 결과적으로 성능이 더 좋습니다.
시스템 프롬프트를 통해 "자동 응답기 현상"을 완화하세요
그들은 소위 응답기 현상(Answer Machine Phenomenon)도 연구했습니다. 그들은 잘 훈련된 MLLM이 VQA 벤치마크를 잘 처리할 수 있지만 기본 대화 기능이 부족하고 기본적으로 짧고 부자연스러운 응답을 출력한다는 것을 관찰했습니다. 그 이유는 보다 일반적이고 현실적인 사용 사례와 달리 벤치마크 질문에 필요한 응답이 단일 옵션이나 단어로 제한되는 경우가 많기 때문입니다. 다른 LLM 연구에서도 비슷한 현상이 관찰되었습니다.
이 문제의 원인은 명령어 미세 조정 데이터에 단기 응답 VQA 작업이 너무 많아 LLM에서 치명적인 망각을 초래할 수 있기 때문이라고 추측합니다.
이 문제를 해결하기 위해 팀은 훈련 중에 추가 시스템 메시지를 통합했습니다. 예를 들어, 응답에 단일 단어나 구문을 생성하는 질문의 경우 프롬프트에 "이 질문에 답하려면 단일 단어나 구문을 사용하세요."와 같은 내용을 추가하세요. 이러한 시스템 프롬프트는 기본 성능을 유지하면서 모델의 대화 기능을 크게 향상시킬 수 있는 것으로 나타났습니다. 그림 12에 예가 나와 있습니다.
또한 시스템 프롬프트는 모델이 사고 체인을 사용하도록 장려하여 추론 능력을 향상시킬 수도 있습니다.
역대 최고의 성능
마지막으로 팀은 탐구 연구 중에 얻은 통찰력을 사용하여 새로운 MLLM 모델 계열인 Cambrian-1을 훈련했습니다. 그들은 다양한 크기의 LLM 백본 네트워크(LLaMA-3-Instruct-8B, Vicuna-1.5-13B, Hermes-2-Yi-34B)를 사용하여 모델을 훈련했습니다.
비전 구성 요소는 SVA(Spatial Vision Aggregator)를 통해 4가지 모델을 결합합니다: OpenAI CLIP ViT-L/14@336, SigLIP ViT-SO400M/14@384, OpenCLIP ConvNeXt-XXL@1024, DINOv2 ViT-L /14@ 518. 그들은 2.5M 어댑터 데이터를 사용하여 커넥터를 사전 훈련한 다음 Cambrian-7M 데이터 혼합을 사용하여 미세 조정했습니다.
표 8과 그림 13은 모델 평가 결과를 나타냅니다.
보시다시피 Cambrian-1은 LLaVA-NeXT 및 Mini-Gemini와 같은 오픈 소스 모델을 능가합니다. SVA 덕분에 Cambrian-1은 LLaVA-NeXT 및 Mini-Gemini에서 사용하는 토큰 수의 약 1/1에 불과한 576개의 이미지 토큰만 사용해도 고해상도 이미지 처리가 필요한 작업을 매우 잘 처리할 수 있습니다. .
Cambrian-1은 또한 여러 벤치마크에서 GPT-4V, Gemini-Pro 및 MM-1과 같은 최고의 독점 모델에 필적하는 성능을 달성했습니다.
그림 14는 몇 가지 예를 보여주며, Cambrian-1은 576개의 토큰만 사용하지만 이미지의 세부 사항에 효과적으로 주의를 기울일 수 있음을 알 수 있습니다.
또한 Cambrian-1이라는 이름에서 알 수 있듯이 야심 찬 팀입니다. 이 모델 시리즈의 차세대 업그레이드를 기대해 보겠습니다.
위 내용은 Cambrian No.1의 탄생: Xie Saining과 Yann LeCun 팀이 가장 강력한 오픈 소스 다중 모드 LLM 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!