최근 Google은 새로운 텍스트 이미지 생성 Muse 모델을 출시했습니다. 이 모델은 현재 널리 사용되는 확산 모델을 사용하지 않고 대신 기존 Transformer 모델을 사용하여 확산 또는 Muse와 비교할 때 가장 발전된 이미지 생성 성능을 달성합니다. 자기회귀 모델과 Muse 모델의 효율성도 크게 향상되었습니다.
논문 링크: https://arxiv.org/pdf/2301.00704.pdf
프로젝트 링크: https://muse-model.github.io/
Muse는 마스크된 모델링 작업을 통해 개별 토큰 공간에서 훈련됩니다. 사전 훈련된 LLM(대형 언어 모델)에서 추출된 텍스트 임베딩이 주어지면 Muse의 훈련 프로세스는 무작위로 마스크된 이미지 토큰을 예측하는 것입니다.
픽셀 공간 확산 모델(예: Imagen 및 DALL-E 2)과 비교할 때 Muse는 개별 토큰을 사용하므로 샘플링 반복 횟수가 적으므로 효율성이 크게 향상됩니다.
자동 회귀 모델과 비교하여 (예: Parti) Muse는 병렬 디코딩을 사용하므로 더 효율적입니다.
사전 학습된 LLM을 사용하면 세분화된 언어 이해를 달성할 수 있으며, 이는 충실도가 높은 이미지 생성과 객체, 공간 관계, 자세, 카디널리티 등과 같은 시각적 개념에 대한 이해로 변환됩니다.
실험 결과, 900M 매개변수만 가진 Muse 모델은 FID 점수 6.06으로 CC3M에서 새로운 SOTA 성능을 달성했습니다.
Muse 3B 파라메트릭 모델은 제로샷 COCO 평가에서 FID 7.88을 달성했으며, CLIP 점수도 0.32를 달성했습니다.
Muse는 모델을 미세 조정하거나 반전하지 않고도 일부 이미지 편집 응용 프로그램(인페인팅, 아웃페인팅 및 마스크 없는 편집)을 직접 구현할 수도 있습니다.
Muse 모델의 프레임워크에는 여러 구성 요소가 포함되어 있습니다. 훈련 파이프라인은 T5-XXL 사전 훈련된 텍스트 인코더, 기본 모델 및 초해상도 모델로 구성됩니다.
1. 사전 훈련된 텍스트 인코더
연구원들은 사전 훈련된 LLM(대형 언어 모델)을 사용하는 것이 고품질을 향상시키는 데 도움이 된다는 것을 발견했습니다. 이미지 생성 결과.
예를 들어, 언어 모델 T5-XXL에서 추출된 임베딩에는 객체(명사), 동작(동사), 시각적 속성(형용사), 공간 관계(전치사) 및 기타 속성(예: 카드 가능성 및 구성) 풍부한 정보.
그래서 연구원들은 Muse 모델이 LLM 임베딩의 풍부한 시각적 및 의미적 개념을 생성된 이미지에 매핑하는 방법을 학습한다는 가설을 제시했습니다.
일부 최근 연구에서는 LLM에서 학습한 개념적 표현과 시각적 작업에 대해 훈련된 모델에서 학습한 개념적 표현이 대략 "선형적으로 매핑"될 수 있음이 입증되었습니다.
입력 텍스트 제목을 고정 매개변수와 함께 T5-XXL 인코더에 전달하면 4096차원 언어 임베딩 벡터가 생성됩니다. 그런 다음 이러한 벡터는 Transformer 모델(기본 및 초해상도 비율)에 선형으로 투영됩니다. ) 숨겨진 크기 차원에서.
2. 의미론적 토큰화를 위해 VQGAN을 사용하세요
VQGAN 모델은 인코더와 디코더로 구성됩니다. 여기서 양자화 레이어는 입력 이미지를 학습된 코드북 시퀀스의 토큰에 매핑합니다.
그런 다음 인코더와 디코더는 서로 다른 해상도의 이미지 인코딩을 지원하기 위해 완전히 컨벌루션 레이어로 구축됩니다.
인코더에는 입력의 공간 차원을 줄이기 위한 여러 개의 다운샘플링 블록이 포함되어 있는 반면, 디코더에는 잠재 이미지를 원래 이미지 크기로 다시 매핑하는 해당 개수의 업샘플링 블록이 있습니다.
연구원들은 두 개의 VQGAN 모델을 훈련시켰습니다. 하나는 다운샘플링 레이트 f=16이고, 모델은 256×256 픽셀의 이미지에서 기본 모델의 레이블을 얻어 공간 크기가 16×인 레이블을 얻었습니다. 다른 하나는 다운샘플링 레이트 f=8이고, 초해상도 모델의 토큰은 512×512 이미지에서 얻어지며, 해당 공간 크기는 64×64입니다.
인코딩 후 얻은 이산 토큰은 이미지의 높은 수준의 의미를 캡처하는 동시에 낮은 수준의 노이즈도 제거할 수 있으며, 토큰의 이산성을 기반으로 교차 엔트로피 손실을 출력 끝에서 사용할 수 있습니다. 다음 단계의 마스크된 토큰 예측
3. 기본 모델
Muse의 기본 모델은 매핑된 T5 임베딩 및 이미지 토큰인 마스크된 Transformer입니다.
연구원 모든 텍스트 임베딩을 마스크 해제로 설정하고, 다양한 이미지 토큰의 일부를 무작위로 마스크 처리한 후 특수 [MASK] 표시를 사용하여 원래 토큰을 대체합니다.
그런 다음 이미지 토큰은 필요한 Transformer 입력 또는 숨겨진 크기에 선형적으로 매핑됩니다. 차원 이미지 입력 임베딩, 그리고 동시에 2D 위치 임베딩을 학습합니다
원래 Transformer 아키텍처와 동일하며 여러 변환기 레이어를 포함하며 self-attention 블록, cross-attention 블록 및 MLP 블록을 사용하여 특징을 추출합니다.
출력 레이어에서 MLP를 사용하여 각 마스크 이미지 임베딩을 로지트 집합(VQGAN 코드북의 크기에 해당)으로 변환하고 교차 엔트로피 손실을 사용하여 지상 진실 토큰을 타겟팅합니다.
훈련 단계에서 기본 모델의 훈련 목표는 각 단계에서 모든 msked 토큰을 예측하는 것이지만 추론 단계에서는 마스크 예측이 반복적으로 수행되므로 품질이 크게 향상될 수 있습니다.
4. 초해상도 모델
연구원들은 512×512 해상도 이미지를 직접 예측하면 모델이 높은 수준의 의미보다는 낮은 수준의 세부 사항에 집중하게 된다는 사실을 발견했습니다.
모델 계단식을 사용하면 이 상황을 개선할 수 있습니다.
먼저 16×16 잠재 맵(256×256 이미지에 해당)을 생성하는 기본 모델을 사용한 다음 초해상도 비율 모델, 업샘플을 사용합니다. 기본 잠재 맵은 64×64(512×512 이미지에 해당)입니다. 초해상도 모델은 기본 모델 학습이 완료된 후 학습됩니다.
앞서 언급했듯이 연구원들은 총 두 개의 VQGAN 모델을 훈련시켰습니다. 하나는 16×16 잠재 해상도와 256×256 공간 해상도이고 다른 하나는 64×64 잠재 해상도와 512×512 공간 해상도입니다. .
기본 모델은 16×16 잠재 지도에 해당하는 토큰을 출력하므로 초해상도 모듈은 저해상도 잠재 지도를 고해상도 잠재 지도로 '변환'하는 방법을 학습한 후 고해상도 잠재 지도를 전달합니다. 최종 고해상도 이미지를 얻기 위한 해상도 VQGAN 디코드 번역 모델도 기본 모델과 유사한 방식으로 텍스트 조건화 및 교차 주의를 통해 훈련됩니다.
5. 디코더 미세 조정
모델의 세부 정보 생성 능력을 더욱 향상시키기 위해 연구원들은 인코더의 용량을 변경하지 않고 유지하면서 더 많은 잔여 레이어와 채널을 추가하여 VQGAN 디코더의 용량을 늘리기로 결정했습니다.
그런 다음 VQGAN 인코더의 가중치, 코드북 및 변환기(즉, 기본 모델 및 초해상도 모델)를 변경하지 않고 유지하면서 새 디코더를 미세 조정합니다. 이 접근 방식은 다른 모델 구성 요소를 다시 훈련할 필요 없이 생성된 이미지의 시각적 품질을 향상시킵니다(시각적 토큰이 고정된 상태로 유지되기 때문).
보시다시피, 디코더는 더 많고 더 명확한 세부 사항을 재구성하도록 미세 조정되었습니다.
6. 가변 마스킹 비율
연구원들은 Csoine 스케줄링을 기반으로 한 가변 마스킹 비율을 사용하여 모델을 교육했습니다. 각 교육 사례에 대해 잘린 아크코스 분포에서 마스크 비율 r∈[0을 추출합니다. , 1]이며, 그 밀도함수는 다음과 같다. 마스크율의 기대값은 0.64로 이는 높은 마스크율이 선호됨을 의미하므로 예측이 더욱 어렵다.
무작위 마스크 비율은 병렬 샘플링 방식에 중요할 뿐만 아니라 분산된 기본 편집 기능도 가능하게 합니다.
7. CFG(분류자 자유 지침)
연구원들은 이미지 생성 품질과 텍스트-이미지 정렬을 개선하기 위해 CFG(분류자 자유 지침)를 채택했습니다. 훈련 중에 무작위로 선택된 샘플의 10%에서 텍스트 조건이 제거되고 어텐션 메커니즘이 이미지 토큰 자체의 셀프 어텐션으로 축소됩니다.
추론 단계에서는 마스크된 각 토큰에 대해 조건부 로짓 lc와 무조건 로짓 lu가 계산되고, 안내 척도로 무조건 로짓에서 수량 t를 제거하여 최종 로짓 lg가 형성됩니다.
직관적으로 CFG는 충실도를 위해 다양성을 교환하지만 이전 방법과 달리 Muse는 샘플링 프로세스를 통해 지침 규모 t를 선형적으로 증가시켜 다양성 손실을 줄임으로써 초기 토큰을 낮은 지침 하에서 사용하거나 보다 자유롭게 샘플링할 수 있습니다. 지침 없이도 이후 토큰에 대한 조건부 프롬프트의 영향을 증가시킵니다.
연구원들은 또한 이 메커니즘을 활용하여 무조건 로짓 lu를 부정 프롬프트에 조건화된 로짓으로 대체함으로써 긍정 프롬프트와 관련된 특징을 가진 이미지 생성을 촉진했습니다.
8. 추론 중 반복 병렬 디코딩
모델 추론의 시간 효율성을 향상시키는 핵심 부분은 병렬 디코딩을 사용하여 단일 전달 채널에서 여러 출력 토큰을 예측하는 것입니다. Mal Kov 속성, 즉 많은 토큰은 주어진 다른 토큰과 조건부로 독립되어 있습니다. 코사인 스케줄에 따라 디코딩이 수행되며 고정된 비율에서 신뢰도가 가장 높은 마스크가 예측을 위해 선택되며 나머지 단계에서는 토큰이 마스크 해제되도록 설정되고 마스크된 토큰이 적절하게 감소됩니다.
위 프로세스에 따르면 기본 모델에서는 24개의 디코딩 단계만 사용하여 256개의 토큰을 추론할 수 있고, 초해상도 모델에서는 8개의 디코딩 단계를 사용하여 4096개의 토큰을 추론할 수 있습니다. 이에 비해 자동 회귀 모델에는 필요합니다. 256 또는 4096 단계와 확산 모델에는 수백 단계가 필요합니다.
점진적 증류 및 향상된 ODE 솔버를 포함한 일부 최근 연구에서 확산 모델의 샘플링 단계가 크게 줄어들었지만 이러한 방법은 대규모 텍스트-이미지 생성에서 널리 검증되지 않았습니다.
연구원들은 다양한 매개변수 양(600M에서 3B까지)을 사용하여 T5-XXL을 기반으로 일련의 기본 Transformer 모델을 훈련했습니다.
생성된 이미지의 품질
실험에서는 카디널리티에 대한 기본 이해를 포함하여 다양한 속성을 가진 텍스트 프롬프트에 대한 Muse 모델의 기능을 테스트했습니다. 텍스트를 여러 번 반복하지만 컨텍스트 변경을 추가하여 전체 이미지를 더욱 사실적으로 만듭니다.
예를 들어 코끼리의 크기와 방향, 와인병 포장지의 색상, 테니스공의 회전 방향 등이요.
정량적 비교
연구원들은 CC3M 및 COCO 데이터 세트에 대해 다른 연구 방법과 실험적 비교를 수행했습니다. 측정 항목에는 샘플 품질과 다양성을 측정하는 FID(Frechet Inception Distance) 및 이미지/CLIP 점수가 포함됩니다. 텍스트 정렬.
실험 결과에 따르면 632M Muse 모델은 CC3M에서 SOTA 결과를 달성하여 FID 점수가 향상되는 동시에 최첨단 CLIP 점수도 달성했습니다.
MS-COCO 데이터 세트에서 3B 모델은 FID 점수 7.88을 달성했는데, 이는 비슷한 매개변수 양을 가진 Parti-3B 모델의 8.1보다 약간 더 나은 수치입니다.
위 내용은 Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!