Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.
올해부터 Apple은 생성 인공 지능(GenAI)에 대한 강조와 투자를 분명히 늘렸습니다. 최근 열린 Apple 주주총회에서 팀 쿡 Apple CEO는 올해 GenAI 분야에서 상당한 진전을 이룰 계획이라고 밝혔습니다. 또한, Apple은 10년 간의 자동차 제작 프로젝트를 포기한다고 발표했으며, 이로 인해 원래 자동차 제작에 참여했던 일부 팀원이 GenAI 분야로 눈을 돌리기 시작했습니다.
이러한 이니셔티브를 통해 Apple은 GenAI를 강화하겠다는 의지를 외부 세계에 보여주었습니다. 현재 멀티모달 분야의 GenAI 기술과 제품, 특히 OpenAI의 Sora가 많은 주목을 받고 있습니다. 애플은 당연히 이 분야에서 돌파구를 찾기를 희망하고 있다.
공동 저작 연구 논문 "MM1: 다중 모드 LLM 사전 훈련의 방법, 분석 및 통찰력"에서 Apple은 다중 모드 사전 훈련을 기반으로 한 연구 결과를 공개하고 최대 30B 매개변수 다중 모드 LLM 시리즈를 포함하는 라이브러리를 출시했습니다. 모델.
논문 주소: https://arxiv.org/pdf/2403.09611.pdf
연구에서 팀은 다양한 아키텍처 구성 요소와 데이터 선택의 중요성에 대해 심층적인 토론을 진행했습니다. 이미지 인코더, 시각적 언어 커넥터 및 다양한 사전 학습 데이터를 신중하게 선택하여 몇 가지 중요한 설계 지침을 요약했습니다. 구체적으로 본 연구의 주요 기여는 다음과 같다.
먼저, 연구원들은 모델 아키텍처 결정 및 사전 훈련 데이터 선택에 대한 소규모 절제 실험을 수행하고 몇 가지 흥미로운 추세를 발견했습니다. 모델링 설계 측면의 중요성은 이미지 해상도, 시각적 인코더 손실 및 용량, 시각적 인코더 사전 훈련 데이터 순입니다.
두 번째로 연구원들은 이미지 캡션, 인터리브된 이미지 텍스트, 일반 텍스트 데이터라는 세 가지 유형의 사전 학습 데이터를 사용했습니다. 퓨샷 및 텍스트 전용 성능의 경우 인터리브 및 텍스트 전용 학습 데이터가 매우 중요하고, 제로샷 성능의 경우 자막 데이터가 가장 중요하다는 사실을 발견했습니다. 이러한 추세는 감독 미세 조정(SFT) 후에도 지속됩니다. 이는 사전 훈련 중에 제시된 성능 및 모델링 결정이 미세 조정 후에도 유지된다는 것을 나타냅니다.
마지막으로 연구원들은 밀도가 높은 모델과 혼합 전문가(MoE) 변형으로 구성된 최대 300억(다른 것은 30억, 70억)의 매개변수를 갖춘 다중 모드 모델 시리즈인 MM1을 구축했습니다. 사전 훈련 지표에서 SOTA를 달성하고, 일련의 기존 다중 모드 벤치마크에 대한 감독 미세 조정 후에도 경쟁력 있는 성능을 유지합니다.
사전 훈련된 모델 MM1은 몇 장의 시나리오에서 자막과 질문 및 답변 작업에서 탁월한 성능을 발휘하여 Emu2, Flamingo 및 IDEFICS보다 뛰어납니다. 감독된 미세 조정 후 MM1은 12개의 다중 모드 벤치마크에서도 강력한 경쟁력을 보여줍니다.
대규모 다중 모드 사전 훈련 덕분에 MM1은 상황 예측, 다중 이미지 및 사고 사슬 추론에서 좋은 성능을 발휘합니다. 마찬가지로 MM1은 명령어 조정 후 강력한 소수 학습 기능을 보여줍니다.
방법 개요: MM1 구축의 비밀
고성능 MLLM(Multimodal Large Language Model, 다중 모드 대규모 언어 모델)을 구축하는 것은 매우 실용적인 작업입니다. 높은 수준의 아키텍처 설계 및 교육 프로세스는 명확하지만 구체적인 구현 방법이 항상 명확한 것은 아닙니다. 이 연구에서 연구원들은 고성능 모델을 구축하기 위해 수행된 절제에 대해 자세히 설명합니다. 그들은 세 가지 주요 설계 결정 방향을 탐색했습니다.
- 아키텍처: 연구원들은 사전 훈련된 다양한 이미지 인코더를 살펴보고 LLM을 이러한 인코더와 연결하는 다양한 방법을 탐색했습니다.
- 데이터: 연구원들은 다양한 유형의 데이터와 상대적인 혼합 가중치를 고려했습니다.
- 훈련 절차: 연구원들은 하이퍼파라미터를 포함하여 MLLM을 훈련하는 방법과 모델의 어느 부분이 언제 훈련되었는지를 조사했습니다.
절제 설정
대규모 MLLM 교육에는 많은 리소스가 소비되므로 연구원들은 단순화된 절제 설정을 채택했습니다. 절제의 기본 구성은 다음과 같습니다.
- 이미지 인코더: DFN-5B 및 VeCap-300M에서 CLIP 손실로 훈련된 ViT-L/14 모델 이미지 크기는 336×336입니다.
- 시각적 언어 커넥터: C-Abstractor, 144개의 이미지 토큰 포함.
- 사전 학습 데이터: 혼합 자막 이미지(45%), 인터리브된 이미지 텍스트 문서(45%) 및 일반 텍스트(10%) 데이터.
- 언어 모델: 1.2B Transformer Decoder 언어 모델.
다양한 디자인 결정을 평가하기 위해 연구원들은 다양한 VQA 및 이미지 설명 작업(COCO Captioning, NoCaps, TextCaps, VQAv2, TextVQA, VizWiz, GQA)에서 제로샷 및 퓨샷(샘플 4개 및 8개) 성능을 사용했습니다. 그리고 OK-VQA.
모델 아키텍처 절제 실험
연구원들은 LLM이 시각적 데이터를 처리할 수 있게 하는 구성 요소를 분석했습니다. 특히 그들은 (1) 시각적 인코더를 최적으로 사전 훈련하는 방법과 (2) LLM 공간에 시각적 특징을 연결하는 방법을 연구했습니다(왼쪽 그림 3 참조).
- 이미지 인코더 사전 훈련. 이 과정에서 연구자들은 주로 이미지 해상도와 이미지 인코더 사전 훈련 목표의 중요성을 제거했습니다. 다른 절제 실험과 달리 연구원들은 일부 대형 이미지 인코더를 사용할 수 있는 충분한 용량을 보장하기 위해 1.2B 대신 2.9B LLM을 사용했다는 점에 유의해야 합니다.
- 인코더 경험: 이미지 해상도가 가장 큰 영향을 미치며, 모델 크기와 훈련 데이터 구성이 그 뒤를 따릅니다. 표 1에 표시된 것처럼 이미지 해상도를 224에서 336으로 높이면 모든 아키텍처의 모든 지표가 약 3% 향상됩니다. 모델 크기를 ViT-L에서 ViT-H로 늘리면 매개변수가 두 배가 되지만 성능 향상은 보통 1% 미만으로 미미합니다. 마지막으로 합성 캡션 데이터세트인 VeCap-300M을 추가하면 몇 장의 장면이 필요한 시나리오에서 성능이 1% 이상 향상됩니다.
- 시각적 언어 커넥터 및 이미지 해상도. 이 구성 요소의 목표는 시각적 표현을 LLM 공간으로 변환하는 것입니다. 이미지 인코더는 ViT이므로 출력은 단일 임베딩이거나 입력 이미지 세그먼트에 해당하는 그리드 배열 임베딩 세트입니다. 따라서 이미지 토큰의 공간적 배열을 LLM의 순차적 배열로 변환해야 합니다. 동시에 실제 이미지 토큰 표현도 단어 임베딩 공간에 매핑되어야 합니다.
- VL 커넥터 경험: 시각적 토큰 수와 이미지 해상도가 가장 중요하지만 VL 커넥터 유형은 거의 영향을 미치지 않습니다. 그림 4에서 볼 수 있듯이 시각적 토큰 수 및/또는 이미지 해상도가 증가함에 따라 제로 샘플 및 소수 샘플의 인식률이 증가합니다.
사전 학습 데이터 절제 실험
일반적으로 모델 학습은 사전 학습과 명령어 튜닝의 두 단계로 나뉩니다. 전자 단계에서는 네트워크 규모의 데이터를 사용하고, 후자에서는 임무별로 선별된 데이터를 사용합니다. 다음은 이 기사의 사전 훈련 단계에 초점을 맞추고 연구원의 데이터 선택에 대해 자세히 설명합니다(그림 3 오른쪽).
MLLM을 훈련하는 데 일반적으로 사용되는 데이터에는 이미지와 텍스트 쌍 설명으로 구성된 캡션 데이터와 웹의 이미지-텍스트 인터리브 문서로 구성된 두 가지 유형이 있습니다. 표 2는 데이터 세트의 전체 목록입니다.
- 데이터 경험 1: 인터리브된 데이터는 소수 샘플 및 일반 텍스트 성능을 향상시키는 데 도움이 되고, 자막 데이터는 제로 샘플 성능을 향상시킵니다. 그림 5a는 인터리빙된 데이터와 자막 데이터의 다양한 조합에 대한 결과를 보여줍니다.
- 데이터 경험 2: 일반 텍스트 데이터는 소수 샘플 및 일반 텍스트 성능을 향상하는 데 도움이 됩니다. 그림 5b에서 볼 수 있듯이 일반 텍스트 데이터와 자막 데이터를 결합하면 Few-shot 성능이 향상됩니다.
- 데이터 강의 3: 이미지와 텍스트 데이터를 조심스럽게 혼합하여 최고의 다중 모드 성능을 얻고 강력한 텍스트 성능을 유지하세요. 그림 5c는 이미지(제목 및 인터레이스)와 일반 텍스트 데이터 간의 여러 혼합 비율을 시도합니다.
- 데이터 경험 4: 합성 데이터는 퓨샷 학습에 도움이 됩니다. 그림 5d에서 볼 수 있듯이 합성 데이터는 절댓값이 각각 2.4%와 4%로 소수 학습의 성능을 크게 향상시킵니다.
최종 모델 및 훈련 방법
연구원들은 이전 절제 결과를 수집하고 MM1 다중 모달 사전 훈련을 위한 최종 방법을 결정했습니다.
- 이미지 인코더: 이미지 해상도 고려 속도의 중요성으로 인해 연구원들은 378x378px 해상도의 ViT-H 모델을 사용하고 DFN-5B 사전 훈련을 위해 CLIP 타겟을 사용했습니다.
- 시각적 언어 커넥터: 시각적 토큰의 수가 가장 중요한 것은 연구에서 저자가 144개의 토큰이 있는 VL 커넥터를 사용했다는 것입니다. 실제 아키텍처는 덜 중요한 것으로 보이며 연구원은 C-Abstract를 선택했습니다.
- 데이터: 제로 샘플 및 소수 샘플의 성능을 유지하기 위해 연구원은 다음과 같이 신중하게 결합된 데이터를 사용했습니다. 45% 이미지 -텍스트 인터리브 문서, 45% 이미지-텍스트 문서 및 10% 일반 텍스트 문서.
모델의 성능을 향상시키기 위해 연구진은 LLM의 크기를 3B, 7B, 30B 매개변수로 확장했습니다. 모든 모델은 시퀀스 길이가 4096이고 시퀀스당 최대 16개의 이미지, 해상도가 378 × 378인 512개 시퀀스의 배치 크기로 완전히 동결되지 않은 사전 학습되었습니다. 모든 모델은 AXLearn 프레임워크를 사용하여 교육되었습니다.
그들은 더 작은 모델에서 더 큰 모델로의 변화를 추론하기 위해 로그 공간의 선형 회귀를 사용하여 소규모, 9M, 85M, 302M 및 1.2B의 학습률에 대한 그리드 검색을 수행했으며 결과는 예측입니다. (비임베디드) 매개변수 N의 수를 고려하여 최적의 최고 학습률 θ: MoE(Mix of Experts)에 의해 확장된
. 실험에서 연구원들은 언어 모델의 FFN 계층에 더 많은 전문가를 추가하여 밀집 모델을 확장하는 방법을 추가로 탐색했습니다.
Dense 모델을 MoE로 변환하려면 Dense 언어 디코더를 MoE 언어 디코더로 바꾸면 됩니다. MoE를 훈련하기 위해 연구원들은 훈련 데이터와 훈련 토큰을 포함하여 Dense Backbone 4와 동일한 훈련 하이퍼파라미터와 동일한 훈련 설정을 사용했습니다.
다중 모드 사전 훈련 결과와 관련하여 연구원들은 적절한 프롬프트를 통해 상한 및 VQA 작업에 대한 사전 훈련된 모델을 평가했습니다. 표 3은 제로 샘플 및 소수 샘플 결과를 평가합니다.
감독된 미세 조정 결과
마지막으로 연구원들은 사전 훈련된 SFT(감독된 미세 조정) 실험을 도입했습니다. 모델.
그들은 LLaVA-1.5 및 LLaVA-NeXT를 따라 다양한 데이터 세트에서 약 100만 개의 SFT 샘플을 수집했습니다. 직관적으로 이미지 해상도가 높을수록 성능이 향상된다는 점을 고려하여 연구진은 고해상도로 확장된 SFT 방식도 채택했습니다.
Supervised Fine-tuning 결과는 다음과 같습니다.
Table 4는 SOTA와의 비교를 보여주며, "-Chat"은 Supervised Fine-tuning 후의 MM1 모델을 나타냅니다.
우선, 평균적으로 MM1-3B-Chat과 MM1-7B-Chat은 나열된 동일한 크기의 모든 모델보다 성능이 뛰어납니다. MM1-3B-Chat 및 MM1-7B-Chat은 VQAv2, TextVQA, ScienceQA, MMBench 및 최근 벤치마크(MMMU 및 MathVista)에서 특히 좋은 성능을 발휘합니다.
두 번째로 연구원들은 3B-MoE(전문가 64명)와 6B-MoE(전문가 32명)라는 두 가지 MoE 모델을 탐색했습니다. Apple의 MoE 모델은 거의 모든 벤치마크에서 Dense 모델보다 더 나은 성능을 달성했습니다. 이는 MoE의 추가 확장 가능성이 매우 크다는 것을 보여줍니다.
셋째, 30B 크기 모델의 경우 MM1-30B-Chat은 TextVQA, SEED 및 MMMU에서 Emu2-Chat37B 및 CogVLM-30B보다 성능이 좋습니다. MM1은 또한 LLaVA-NeXT에 비해 경쟁력 있는 전체 성능을 달성합니다.
그러나 LLaVA-NeXT는 다중 이미지 추론이나 소수 힌트를 지원하지 않습니다. 왜냐하면 각 이미지는 LLM으로 전송된 2880개의 토큰으로 표시되는 반면 MM1의 총 토큰 수는 720개에 불과하기 때문입니다. 이는 여러 이미지와 관련된 특정 응용 프로그램을 제한합니다.
그림 7b는 입력 이미지 해상도가 SFT 평가 지표의 평균 성능에 미치는 영향을 보여주고, 그림 7c는 사전 훈련 데이터가 증가함에 따라 모델 성능이 계속 향상되는 것을 보여줍니다.
이미지 해상도의 영향. 그림 7b는 입력 이미지 해상도가 SFT 평가 지표의 평균 성능에 미치는 영향을 보여줍니다.
사전 학습의 영향: 그림 7c는 사전 학습 데이터가 증가함에 따라 모델 성능이 계속해서 향상되는 것을 보여줍니다.
자세한 연구 내용은 원문을 참고해주세요.
위 내용은 Apple의 대형 모델 MM1이 시장에 진출합니다. 300억 개의 매개변수, 다중 모드, MoE 아키텍처, 작성자의 절반 이상이 중국인입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











MySQL은 JSON 데이터를 반환 할 수 있습니다. json_extract 함수는 필드 값을 추출합니다. 복잡한 쿼리의 경우 where 절을 사용하여 JSON 데이터를 필터링하지만 성능 영향에주의하십시오. JSON에 대한 MySQL의 지원은 지속적으로 증가하고 있으며 최신 버전 및 기능에주의를 기울이는 것이 좋습니다.

데이터베이스 산 속성에 대한 자세한 설명 산 속성은 데이터베이스 트랜잭션의 신뢰성과 일관성을 보장하기위한 일련의 규칙입니다. 데이터베이스 시스템이 트랜잭션을 처리하는 방법을 정의하고 시스템 충돌, 전원 중단 또는 여러 사용자의 동시 액세스가 발생할 경우에도 데이터 무결성 및 정확성을 보장합니다. 산 속성 개요 원자력 : 트랜잭션은 불가분의 단위로 간주됩니다. 모든 부분이 실패하고 전체 트랜잭션이 롤백되며 데이터베이스는 변경 사항을 유지하지 않습니다. 예를 들어, 은행 송금이 한 계정에서 공제되지만 다른 계정으로 인상되지 않은 경우 전체 작업이 취소됩니다. BeginTransaction; updateAccountssetBalance = Balance-100WH

sqllimit 절 : 쿼리 결과의 행 수를 제어하십시오. SQL의 한계 절은 쿼리에서 반환 된 행 수를 제한하는 데 사용됩니다. 이것은 대규모 데이터 세트, 페이지 진화 디스플레이 및 테스트 데이터를 처리 할 때 매우 유용하며 쿼리 효율성을 효과적으로 향상시킬 수 있습니다. 구문의 기본 구문 : SelectColumn1, Collect2, ... Fromtable_namelimitnumber_of_rows; 번호_of_rows : 반환 된 행 수를 지정하십시오. 오프셋이있는 구문 : SelectColumn1, Column2, ... Fromtable_namelimitOffset, number_of_rows; 오프셋 : skip

MySQL 데이터베이스 성능 최적화 안내서 리소스 집약적 응용 프로그램에서 MySQL 데이터베이스는 중요한 역할을 수행하며 대규모 트랜잭션 관리를 담당합니다. 그러나 응용 프로그램 규모가 확장됨에 따라 데이터베이스 성능 병목 현상은 종종 제약이됩니다. 이 기사는 일련의 효과적인 MySQL 성능 최적화 전략을 탐색하여 응용 프로그램이 고 부하에서 효율적이고 반응이 유지되도록합니다. 실제 사례를 결합하여 인덱싱, 쿼리 최적화, 데이터베이스 설계 및 캐싱과 같은 심층적 인 주요 기술을 설명합니다. 1. 데이터베이스 아키텍처 설계 및 최적화 된 데이터베이스 아키텍처는 MySQL 성능 최적화의 초석입니다. 몇 가지 핵심 원칙은 다음과 같습니다. 올바른 데이터 유형을 선택하고 요구 사항을 충족하는 가장 작은 데이터 유형을 선택하면 저장 공간을 절약 할 수있을뿐만 아니라 데이터 처리 속도를 향상시킬 수 있습니다.

기본 키는 데이터베이스의 각 행을 고유하게 식별하는 키 속성이기 때문에 MySQL 기본 키는 비어있을 수 없습니다. 기본 키가 비어 있으면 레코드를 고유하게 식별 할 수 없으므로 데이터 혼동으로 이어질 수 있습니다. 자체 점수 정수 열 또는 UUID를 기본 키로 사용하는 경우 효율성 및 우주 점유와 같은 요소를 고려하고 적절한 솔루션을 선택해야합니다.

해시 값으로 저장되기 때문에 MongoDB 비밀번호를 Navicat을 통해 직접 보는 것은 불가능합니다. 분실 된 비밀번호 검색 방법 : 1. 비밀번호 재설정; 2. 구성 파일 확인 (해시 값이 포함될 수 있음); 3. 코드를 점검하십시오 (암호 하드 코드 메일).

MySQL 및 MariaDB 데이터베이스의 효과적인 모니터링은 최적의 성능을 유지하고 잠재적 인 병목 현상을 식별하며 전반적인 시스템 신뢰성을 보장하는 데 중요합니다. Prometheus MySQL Expler는 능동적 인 관리 및 문제 해결에 중요한 데이터베이스 메트릭에 대한 자세한 통찰력을 제공하는 강력한 도구입니다.

Sqlorderby 절의 자세한 설명 : Data Orderby 조항의 효율적인 정렬은 쿼리 결과 세트를 정렬하는 데 사용되는 SQL의 핵심 문입니다. 단일 열 또는 여러 열에서 오름차순 순서 (ASC) 또는 내림차순 순서 (DESC)로 배열되어 데이터 가독성 및 분석 효율성을 크게 향상시킬 수 있습니다. Orderby Syntax SelectColumn1, Collect2, ... Fromtable_nameorderByColumn_name [ASC | desc]; column_name : 열별로 정렬. ASC : 오름차순 주문 정렬 (기본값). DESC : 하강 순서로 정렬하십시오. Orderby 주요 기능 : 다중 열 분류 : 다중 열 정렬을 지원하고 열 순서는 정렬의 우선 순위를 결정합니다. ~부터
