GPT-4o의 등장으로 다시 한번 멀티모달 모델 개발의 새로운 패러다임이 탄생했습니다!
왜 그런 말을 하는 걸까요?
OpenAI는 이를 "최초의 "네이티브" 멀티모달" 모델이라고 부릅니다. 이는 GPT-4o가 모든 이전 모델과 다르다는 것을 의미합니다.
전통적인 다중 모드 기본 모델은 일반적으로 각 양식에 대해 특정 "인코더" 또는 "디코더"를 사용하여 다양한 양식을 구분합니다.
그러나 이 접근 방식은 모델 간 정보를 효과적으로 융합하는 모델의 능력을 제한합니다.
GPT-4o는 텍스트, 시각 및 오디오 모드를 포괄할 수 있는 "최초의 엔드 투 엔드" 교육 모델입니다. 모든 입력 및 출력은 단일 신경망에서 처리됩니다.
그리고 지금, GPT-4o에 도전하는 업계 최초의 모델이 등장했습니다!
최근 메타팀 연구진은 "혼합 모달 기본 모델"인 카멜레온을 출시했습니다.
문서 주소: https://arxiv.org/pdf/2405.09818
GPT-4o와 마찬가지로 Chameleon은 통합 Transformer 아키텍처를 채택하고 텍스트, 이미지 및 코드 혼합 양식을 사용하여 훈련을 완료합니다.
텍스트 생성과 유사한 방식으로 이미지는 개별적으로 "토큰화"(토큰화)되고 최종적으로 인터리브된 텍스트 및 이미지 시퀀스를 생성하고 추론합니다.
이 "초기 융합" 접근 방식을 사용하면 모든 파이프라인이 처음부터 공통 표현 공간에 매핑되므로 모델이 텍스트와 이미지를 원활하게 처리할 수 있습니다.
Chameleon이 생성한 다중 모드 콘텐츠
동시에 이러한 디자인은 모델 교육에 상당한 기술적 과제를 가져옵니다.
이와 관련하여 메타 연구팀은 일련의 아키텍처 혁신과 교육 기술을 도입했습니다.
결과는 일반 텍스트 작업에서 340억 개의 매개변수 카멜레온(10조 개의 다중 모드 토큰으로 훈련됨)의 성능이 Gemini-Pro와 동일하다는 것을 보여줍니다.
시각적 질문 답변 및 이미지 주석 벤치마크에서 SOTA를 새로 고치면 성능이 GPT-4V에 가깝습니다.
그러나 GPT-4o와 Chameleon은 모두 차세대 "네이티브" 엔드투엔드 멀티모달 기본 모델의 초기 탐색입니다.
GTC 2024 컨퍼런스에서 Lao Huang은 AGI의 궁극적인 비전인 다양한 모드의 상호 운용성을 향한 중요한 단계를 설명했습니다.
카멜레온의 출시는 단순히 GPT-4o에 대한 가장 빠른 응답입니다.
일부 네티즌들은 토큰이 들어오고 토큰이 나간다고 하는데 이는 도저히 설명이 불가능합니다.
어떤 사람들은 GPT-4o 탄생 이후 발표된 매우 탄탄한 연구를 OOS가 따라잡을 것이라고 주장하기도 합니다.
그러나 현재 Chameleon 모델은 생성된 양식(주로 이미지 텍스트)을 지원합니다. GPT-4o의 음성 기능이 없습니다.
네티즌들은 다음과 같이 말했습니다. 다른 양식(오디오)을 추가하고 훈련 데이터 세트를 확장하고 잠시 동안 "요리"하면 GPT-4o를 얻게 될 것입니다...?
Meta "나는 이 팀을 지원하게 된 것을 매우 자랑스럽게 생각합니다. GPT-4o를 오픈 소스 커뮤니티에 더 가깝게 만드는 방향으로 나아가겠습니다."라고 GPT-4o의 제품 관리 이사는 말했습니다.
아마 GPT-4o의 오픈 소스 버전을 얻는 데 그리 오랜 시간이 걸리지 않을 것입니다.
다음으로 카멜레온 모델의 기술적인 디테일을 살펴보겠습니다.
Meta는 Chameleon의 논문에서 처음 언급되었습니다. 새로 출시된 많은 모델은 여전히 "다중 모드"를 끝까지 구현하지 않습니다.
이러한 모델은 엔드투엔드 학습 방법을 채택하지만 여전히 별도의 인코더 또는 디코더를 사용하여 다양한 양식을 별도로 모델링합니다.
처음에 언급했듯이 이 접근 방식은 모델의 교차 모드 정보 캡처 능력을 제한하고 모든 형태의 정보가 포함된 진정한 다중 모드 문서를 생성하기 어렵게 만듭니다.
이러한 단점을 개선하기 위해 메타는 텍스트와 이미지 콘텐츠가 임의로 얽힌 콘텐츠를 생성할 수 있는 '혼합 모드' 기본 모델 카멜레온 시리즈를 제안했습니다.
Chameleon이 생성한 결과, 텍스트와 이미지가 인터레이스되어 나타납니다.
소위 "혼합 모달" 기본 모델은 Chameleon이 처음부터 훈련하기 위해 엔드 투 엔드 접근 방식을 사용할 뿐만 아니라 학습 중에 모든 모델을 결합합니다. 상태 정보는 서로 얽혀 혼합되어 통합 아키텍처를 사용하여 처리됩니다.
모든 양식의 정보를 혼합하고 동일한 모델 아키텍처에서 이를 표현하는 방법은 무엇입니까?
답은 여전히 "토큰"입니다.
모두 토큰으로 표현되는 한 모든 양식의 모든 정보는 동일한 벡터 공간에 매핑될 수 있으므로 Transformer가 이를 원활하게 처리할 수 있습니다.
그러나 이 접근 방식은 최적화 안정성과 모델 확장성 측면에서 기술적 과제를 가져올 것입니다.
이러한 문제를 해결하기 위해 이 논문에서는 그에 따라 모델 아키텍처를 혁신하고 QK 정규화 및 Zloss를 포함한 몇 가지 학습 기술을 사용합니다.
동시에 일반 텍스트 LLM을 다중 모드 모델로 미세 조정하는 방법도 제안합니다.
모든 양식을 토큰으로 표현하려면 먼저 강력한 토크나이저가 필요합니다.
이를 위해 카멜레온 팀은 8192 크기의 코드북을 기반으로 512×512 사양의 이미지를 1024 개별 토큰으로 인코딩합니다.
텍스트 토크나이저는 Google이 개발한 문장 조각 오픈소스 라이브러리를 기반으로 하며, 65536개의 텍스트 토큰과 8192개의 이미지 토큰을 포함하는 BPE 토크나이저를 학습시킵니다.
"혼합 양식"의 잠재력을 완전히 활성화하기 위해 훈련 데이터도 분할되어 다양한 양식과 혼합되어 순수 텍스트, 텍스트-이미지를 포함하여 모델에 제공됩니다. 쌍 및 텍스트, 인터레이스 이미지가 포함된 다중 모드 문서입니다.
일반 텍스트 데이터에는 Llama 2 및 CodeLlama에서 사용하는 모든 사전 훈련 데이터가 포함되어 총 2조 9천억 개의 토큰이 있습니다.
텍스트-이미지 쌍에는 총 14억 쌍과 1조 5천억 개의 토큰에 달하는 일부 공개 데이터가 포함되어 있습니다.
텍스트와 이미지가 얽혀있는 데이터에 대해, 논문에서는 메타 제품의 데이터가 포함되지 않고, 완전히 공공 데이터 소스를 사용하며, 총 4000억 개의 토큰을 분류한다는 점을 구체적으로 강조합니다.
카멜레온의 사전 훈련은 두 단계로 나누어 진행되며 각각 전체 훈련 비율의 80%와 20%를 차지합니다.
학습의 첫 번째 단계는 모델이 위의 데이터를 비지도 방식으로 학습하도록 하는 것입니다. 두 번째 단계 초반에는 첫 번째 단계에서 얻은 가중치를 50% 줄이고 더 높은 품질의 데이터를 혼합하여 계속 학습할 수 있는 모델입니다.
모델이 8B 매개변수와 1T 토큰 이상으로 확장되면 학습 후반 단계에서 명백한 불안정성 문제가 발생합니다.
모든 양식은 모델 가중치를 공유하므로 각 양식은 표준을 높이고 다른 양식과 "경쟁"하는 경향이 있는 것으로 보입니다.
이로 인해 훈련 초기에는 큰 문제가 발생하지 않지만 훈련이 진행되고 데이터가 bf16의 표현 범위를 초과함에 따라 손실이 분기됩니다.
연구원들은 이를 소프트맥스 함수의 변환 불변성 때문이라고 생각합니다. 이 현상은 단일 모달 모델에서 "로짓 드리프트"라고도 합니다.
따라서 본 논문에서는 안정성을 보장하기 위한 몇 가지 아키텍처 조정 및 최적화 방법을 제안합니다.
-QK 정규화(쿼리 키 정규화): 어텐션 모듈의 쿼리 및 키 벡터에 레이어 놈을 적용하여 직접 제어합니다. 소프트맥스 레이어 입력의 표준 성장.
- Attention 레이어와 Feedforward 레이어 이후 드롭아웃 소개
- 손실 함수에 Zloss 정규화 사용
논문에서는 데이터 소스와 아키텍처 외에도 사전 훈련 방법 컴퓨팅 능력의 규모.
하드웨어 모델은 80GB 메모리를 갖춘 NVIDIA A100입니다. 7B 버전은 1024개의 GPU를 병렬로 사용하여 약 860,000 GPU 시간을 훈련시켰으며, 34B 모델에서 사용하는 GPU 수는 3배로 늘어났습니다. 428만 명을 돌파했습니다.
Meta의 연구팀은 한때 Llama 2를 오픈 소스로 제공했던 회사로서 기술 보고서조차 없는 GPT-4o에 비해 데이터와 유용한 정보가 담긴 이 문서는 정말 관대합니다. "가장 관대 한"으로 묘사됩니다.
구체적인 실험 평가에서는 연구진이 수동 평가, 보안 테스트, 기준 평가로 나누어 진행했습니다.
교육에 Llama 2보다 4배 더 많은 토큰을 사용한 후 Chameleon-34B는 다양한 단일 모달 벤치마크 테스트에서 놀라운 결과를 얻었습니다.
텍스트 전용 작업 생성에서 연구원들은 사전 훈련된(비 SFT) 모델의 텍스트 전용 기능을 다른 주요 텍스트 전용 LLM과 비교했습니다.
평가 내용에는 상식추론, 독해, 수학문제, 세계지식 영역이 포함되어 있습니다. 평가 결과는 아래 표와 같습니다.
-상식추론과 독해
라마 2에 비해 카멜레온-7B와 카멜레온-34B의 경쟁력이 더 높은 것을 볼 수 있습니다. 실제로 34B는 5/8 작업에서 Llama-2 70B를 능가했으며 성능은 Mixtral-8x7B와 동일했습니다.
- 수학과 세계 지식
다른 양식에 대한 교육을 받았음에도 불구하고 두 카멜레온 모델 모두 강력한 수학적 능력을 보여주었습니다.
GSM8k에서 Chameleon-7B는 해당 매개변수 규모의 Llama 2 모델보다 성능이 뛰어나며 성능은 Mistral-7B와 동일합니다.
또한 Chameleon-34B는 maj@1(61.4 대 56.8)에서 Llama 2-70B 및 maj@32(77.0 대 75.1)에서 Mixtral-8x7B보다 더 나은 성능을 발휘합니다.
마찬가지로, 수학 연산에서 Chameleon-7B는 Llama 2보다 성능이 뛰어나고 maj@4에서는 Mistral-7B와 동등하며, Chameleon-34B는 Llama 2-70B보다 성능이 뛰어나며 maj@4에서는 Mixtral-8x7B에 가깝습니다. maj@4(24.7 대 28.4).
전반적으로 Chameleon의 성능은 모든 측면에서 Llama 2를 능가하며 일부 작업에서는 Mistral-7B/8x7B에 가깝습니다.
텍스트-이미지 작업에서 연구원들은 시각적 질문 답변과 이미지 주석이라는 두 가지 특정 작업을 구체적으로 평가했습니다.
Chameleon은 시각적 질문 답변 및 이미지 주석 작업에서 Flamingo 및 Llava-1.5와 같은 모델을 물리치고 SOTA가 되었습니다. 일반 텍스트 작업에서도 Mixtral 8x7B 및 Gemini Pro와 같은 1차 모델과 동일한 성능을 발휘했습니다.
동시에 모델에서 생성된 다중 모달 콘텐츠의 품질을 더욱 평가하기 위해 논문에서는 인간 평가 실험도 소개했습니다. 벤치마크 테스트 결과 Chameleon-34B가 Gemini Pro 및 GPT-4V보다 훨씬 더 나은 성능을 발휘하는 것으로 나타났습니다.
GPT-4V 및 Gemini Pro와 비교하여 인간 심사위원의 선호도는 각각 51.6% 및 60.4점을 기록했습니다.
아래 그림은 인간 주석자의 다양한 프롬프트에 대한 콘텐츠를 이해하고 생성하는 데 있어서 카멜레온과 기본 모델의 성능 비교를 보여줍니다.
각 질문에는 세 명의 주석자가 답변하며, 다수결이 최종 답변이 됩니다.
인간 주석자의 품질과 질문이 잘 설계되었는지 이해하기 위해 연구원들은 여러 주석자 간의 일치 정도도 조사했습니다.
표 5는 20,000개의 크라우드소싱 프롬프트와 445개의 레드팀 상호작용에 대해 수행된 보안 테스트로, 모델에서 안전하지 않은 콘텐츠를 생성하게 됩니다.
Gemini 및 GPT-4V와 비교하여 Chameleon은 인터리브된 혼합 모달 응답이 필요한 큐를 처리할 때 매우 경쟁력이 있습니다.
예제에서 볼 수 있듯이, 질문 및 답변 작업을 완료할 때 카멜레온은 입력 텍스트 + 이미지를 이해할 수 있을 뿐만 아니라 모델 출력 콘텐츠에 적절한 "그림"을 추가할 수도 있습니다.
또한, Chameleon에서 생성된 이미지는 일반적으로 상황에 따라 다르므로 인터레이스된 콘텐츠의 출력이 사용자에게 매우 매력적입니다.
논문 마지막에는 본 연구에 참여한 기여자들의 명단도 기재되어 있습니다.
모든 프로젝트에 대한 사전 교육, 조정 및 안전, 추론 및 평가, 참가자가 포함됩니다.
이 중 *는 공동 저자, †는 핵심 기여자, ‡는 워크플로 리더, ♯는 프로젝트 리더를 나타냅니다.
위 내용은 Meta는 GPT-4o에 도전하기 위해 'Chameleon'을 출시하고 34B 매개변수는 다중 모드 혁명을 주도합니다! 10조 개의 토큰 교육으로 SOTA가 새로워집니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!