목차
Muse 모델
실험 결과
기술 주변기기 일체 포함 Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

May 13, 2023 am 08:46 AM
Google 모델

최근 Google은 새로운 텍스트 이미지 생성 Muse 모델을 출시했습니다. 이 모델은 현재 널리 사용되는 확산 모델을 사용하지 않고 대신 기존 Transformer 모델을 사용하여 확산 또는 Muse와 비교할 때 가장 발전된 이미지 생성 성능을 달성합니다. 자기회귀 모델과 Muse 모델의 효율성도 크게 향상되었습니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

논문 링크: https://arxiv.org/pdf/2301.00704.pdf

프로젝트 링크: https://muse-model.github.io/

Muse는 마스크된 모델링 작업을 통해 개별 토큰 공간에서 훈련됩니다. 사전 훈련된 LLM(대형 언어 모델)에서 추출된 텍스트 임베딩이 주어지면 Muse의 훈련 프로세스는 무작위로 마스크된 이미지 토큰을 예측하는 것입니다.

픽셀 공간 확산 모델(예: Imagen 및 DALL-E 2)과 비교할 때 Muse는 개별 토큰을 사용하므로 샘플링 반복 횟수가 적으므로 효율성이 크게 향상됩니다.

자동 회귀 모델과 비교하여 (예: Parti) Muse는 병렬 디코딩을 사용하므로 더 효율적입니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

사전 학습된 LLM을 사용하면 세분화된 언어 이해를 달성할 수 있으며, 이는 충실도가 높은 이미지 생성과 객체, 공간 관계, 자세, 카디널리티 등과 같은 시각적 개념에 대한 이해로 변환됩니다.

실험 결과, 900M 매개변수만 가진 Muse 모델은 FID 점수 6.06으로 CC3M에서 새로운 SOTA 성능을 달성했습니다.

Muse 3B 파라메트릭 모델은 제로샷 COCO 평가에서 FID 7.88을 달성했으며, CLIP 점수도 0.32를 달성했습니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

Muse는 모델을 미세 조정하거나 반전하지 않고도 일부 이미지 편집 응용 프로그램(인페인팅, 아웃페인팅 및 마스크 없는 편집)을 직접 구현할 수도 있습니다.

Muse 모델

Muse 모델의 프레임워크에는 여러 구성 요소가 포함되어 있습니다. 훈련 파이프라인은 T5-XXL 사전 훈련된 텍스트 인코더, 기본 모델 및 초해상도 모델로 구성됩니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

1. 사전 훈련된 텍스트 인코더

연구원들은 사전 훈련된 LLM(대형 언어 모델)을 사용하는 것이 고품질을 향상시키는 데 도움이 된다는 것을 발견했습니다. 이미지 생성 결과.

예를 들어, 언어 모델 T5-XXL에서 추출된 임베딩에는 객체(명사), 동작(동사), 시각적 속성(형용사), 공간 관계(전치사) 및 기타 속성(예: 카드 가능성 및 구성) 풍부한 정보.

그래서 연구원들은 Muse 모델이 LLM 임베딩의 풍부한 시각적 및 의미적 개념을 생성된 이미지에 매핑하는 방법을 학습한다는 가설을 제시했습니다.

일부 최근 연구에서는 LLM에서 학습한 개념적 표현과 시각적 작업에 대해 훈련된 모델에서 학습한 개념적 표현이 대략 "선형적으로 매핑"될 수 있음이 입증되었습니다.

입력 텍스트 제목을 고정 매개변수와 함께 T5-XXL 인코더에 전달하면 4096차원 언어 임베딩 벡터가 생성됩니다. 그런 다음 이러한 벡터는 Transformer 모델(기본 및 초해상도 비율)에 선형으로 투영됩니다. ) 숨겨진 크기 차원에서.

2. 의미론적 토큰화를 위해 VQGAN을 사용하세요

VQGAN 모델은 인코더와 디코더로 구성됩니다. 여기서 양자화 레이어는 입력 이미지를 학습된 코드북 시퀀스의 토큰에 매핑합니다.

그런 다음 인코더와 디코더는 서로 다른 해상도의 이미지 인코딩을 지원하기 위해 완전히 컨벌루션 레이어로 구축됩니다.

인코더에는 입력의 공간 차원을 줄이기 위한 여러 개의 다운샘플링 블록이 포함되어 있는 반면, 디코더에는 잠재 이미지를 원래 이미지 크기로 다시 매핑하는 해당 개수의 업샘플링 블록이 있습니다.

연구원들은 두 개의 VQGAN 모델을 훈련시켰습니다. 하나는 다운샘플링 레이트 f=16이고, 모델은 256×256 픽셀의 이미지에서 기본 모델의 레이블을 얻어 공간 크기가 16×인 레이블을 얻었습니다. 다른 하나는 다운샘플링 레이트 f=8이고, 초해상도 모델의 토큰은 512×512 이미지에서 얻어지며, 해당 공간 크기는 64×64입니다.

인코딩 후 얻은 이산 토큰은 이미지의 높은 수준의 의미를 캡처하는 동시에 낮은 수준의 노이즈도 제거할 수 있으며, 토큰의 이산성을 기반으로 교차 엔트로피 손실을 출력 끝에서 사용할 수 있습니다. 다음 단계의 마스크된 토큰 예측

3. 기본 모델

Muse의 기본 모델은 매핑된 T5 임베딩 및 이미지 토큰인 마스크된 Transformer입니다.

연구원 모든 텍스트 임베딩을 마스크 해제로 설정하고, 다양한 이미지 토큰의 일부를 무작위로 마스크 처리한 후 특수 [MASK] 표시를 사용하여 원래 토큰을 대체합니다.

그런 다음 이미지 토큰은 필요한 Transformer 입력 또는 숨겨진 크기에 선형적으로 매핑됩니다. 차원 이미지 입력 ​​임베딩, 그리고 동시에 2D 위치 임베딩을 학습합니다

원래 Transformer 아키텍처와 동일하며 여러 변환기 레이어를 포함하며 self-attention 블록, cross-attention 블록 및 MLP 블록을 사용하여 특징을 추출합니다.

출력 레이어에서 MLP를 사용하여 각 마스크 이미지 임베딩을 로지트 집합(VQGAN 코드북의 크기에 해당)으로 변환하고 교차 엔트로피 손실을 사용하여 지상 진실 토큰을 타겟팅합니다.

훈련 단계에서 기본 모델의 훈련 목표는 각 단계에서 모든 msked 토큰을 예측하는 것이지만 추론 단계에서는 마스크 예측이 반복적으로 수행되므로 품질이 크게 향상될 수 있습니다.

4. 초해상도 모델

연구원들은 512×512 해상도 이미지를 직접 예측하면 모델이 높은 수준의 의미보다는 낮은 수준의 세부 사항에 집중하게 된다는 사실을 발견했습니다.

모델 계단식을 사용하면 이 상황을 개선할 수 있습니다.

먼저 16×16 잠재 맵(256×256 이미지에 해당)을 생성하는 기본 모델을 사용한 다음 초해상도 비율 모델, 업샘플을 사용합니다. 기본 잠재 맵은 64×64(512×512 이미지에 해당)입니다. 초해상도 모델은 기본 모델 학습이 완료된 후 학습됩니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

앞서 언급했듯이 연구원들은 총 두 개의 VQGAN 모델을 훈련시켰습니다. 하나는 16×16 잠재 해상도와 256×256 공간 해상도이고 다른 하나는 64×64 잠재 해상도와 512×512 공간 해상도입니다. .

기본 모델은 16×16 잠재 지도에 해당하는 토큰을 출력하므로 초해상도 모듈은 저해상도 잠재 지도를 고해상도 잠재 지도로 '변환'하는 방법을 학습한 후 고해상도 잠재 지도를 전달합니다. 최종 고해상도 이미지를 얻기 위한 해상도 VQGAN 디코드 번역 모델도 기본 모델과 유사한 방식으로 텍스트 조건화 및 교차 주의를 통해 훈련됩니다.

5. 디코더 미세 조정

모델의 세부 정보 생성 능력을 더욱 향상시키기 위해 연구원들은 인코더의 용량을 변경하지 않고 유지하면서 더 많은 잔여 레이어와 채널을 추가하여 VQGAN 디코더의 용량을 늘리기로 결정했습니다.

그런 다음 VQGAN 인코더의 가중치, 코드북 및 변환기(즉, 기본 모델 및 초해상도 모델)를 변경하지 않고 유지하면서 새 디코더를 미세 조정합니다. 이 접근 방식은 다른 모델 구성 요소를 다시 훈련할 필요 없이 생성된 이미지의 시각적 품질을 향상시킵니다(시각적 토큰이 고정된 상태로 유지되기 때문).

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

보시다시피, 디코더는 더 많고 더 명확한 세부 사항을 재구성하도록 미세 조정되었습니다.

6. 가변 마스킹 비율

연구원들은 Csoine 스케줄링을 기반으로 한 가변 마스킹 비율을 사용하여 모델을 교육했습니다. 각 교육 사례에 대해 잘린 아크코스 분포에서 마스크 비율 r∈[0을 추출합니다. , 1]이며, 그 밀도함수는 다음과 같다. 마스크율의 기대값은 0.64로 이는 높은 마스크율이 선호됨을 의미하므로 예측이 더욱 어렵다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가무작위 마스크 비율은 병렬 샘플링 방식에 중요할 뿐만 아니라 분산된 기본 편집 기능도 가능하게 합니다.

7. CFG(분류자 자유 지침)

연구원들은 이미지 생성 품질과 텍스트-이미지 정렬을 개선하기 위해 CFG(분류자 자유 지침)를 채택했습니다. 훈련 중에 무작위로 선택된 샘플의 10%에서 텍스트 조건이 제거되고 어텐션 메커니즘이 이미지 토큰 자체의 셀프 어텐션으로 축소됩니다.

추론 단계에서는 마스크된 각 토큰에 대해 조건부 로짓 lc와 무조건 로짓 lu가 계산되고, 안내 척도로 무조건 로짓에서 수량 t를 제거하여 최종 로짓 lg가 형성됩니다.

직관적으로 CFG는 충실도를 위해 다양성을 교환하지만 이전 방법과 달리 Muse는 샘플링 프로세스를 통해 지침 규모 t를 선형적으로 증가시켜 다양성 손실을 줄임으로써 초기 토큰을 낮은 지침 하에서 사용하거나 보다 자유롭게 샘플링할 수 있습니다. 지침 없이도 이후 토큰에 대한 조건부 프롬프트의 영향을 증가시킵니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가연구원들은 또한 이 메커니즘을 활용하여 무조건 로짓 lu를 부정 프롬프트에 조건화된 로짓으로 대체함으로써 긍정 프롬프트와 관련된 특징을 가진 이미지 생성을 촉진했습니다.

8. 추론 중 반복 병렬 디코딩

모델 추론의 시간 효율성을 향상시키는 핵심 부분은 병렬 디코딩을 사용하여 단일 전달 채널에서 여러 출력 토큰을 예측하는 것입니다. Mal Kov 속성, 즉 많은 토큰은 주어진 다른 토큰과 조건부로 독립되어 있습니다. 코사인 스케줄에 따라 디코딩이 수행되며 고정된 비율에서 신뢰도가 가장 높은 마스크가 예측을 위해 선택되며 나머지 단계에서는 토큰이 마스크 해제되도록 설정되고 마스크된 토큰이 적절하게 감소됩니다.

위 프로세스에 따르면 기본 모델에서는 24개의 디코딩 단계만 사용하여 256개의 토큰을 추론할 수 있고, 초해상도 모델에서는 8개의 디코딩 단계를 사용하여 4096개의 토큰을 추론할 수 있습니다. 이에 비해 자동 회귀 모델에는 필요합니다. 256 또는 4096 단계와 확산 모델에는 수백 단계가 필요합니다.

점진적 증류 및 향상된 ODE 솔버를 포함한 일부 최근 연구에서 확산 모델의 샘플링 단계가 크게 줄어들었지만 이러한 방법은 대규모 텍스트-이미지 생성에서 널리 검증되지 않았습니다.

실험 결과

연구원들은 다양한 매개변수 양(600M에서 3B까지)을 사용하여 T5-XXL을 기반으로 일련의 기본 Transformer 모델을 훈련했습니다.

생성된 이미지의 품질

실험에서는 카디널리티에 대한 기본 이해를 포함하여 다양한 속성을 가진 텍스트 프롬프트에 대한 Muse 모델의 기능을 테스트했습니다. 텍스트를 여러 번 반복하지만 컨텍스트 변경을 추가하여 전체 이미지를 더욱 사실적으로 만듭니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

예를 들어 코끼리의 크기와 방향, 와인병 포장지의 색상, 테니스공의 회전 방향 등이요.

정량적 비교

연구원들은 CC3M 및 COCO 데이터 세트에 대해 다른 연구 방법과 실험적 비교를 수행했습니다. 측정 항목에는 샘플 품질과 다양성을 측정하는 FID(Frechet Inception Distance) 및 이미지/CLIP 점수가 포함됩니다. 텍스트 정렬.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

실험 결과에 따르면 632M Muse 모델은 CC3M에서 SOTA 결과를 달성하여 FID 점수가 향상되는 동시에 최첨단 CLIP 점수도 달성했습니다.

Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가

MS-COCO 데이터 세트에서 3B 모델은 FID 점수 7.88을 달성했는데, 이는 비슷한 매개변수 양을 가진 Parti-3B 모델의 8.1보다 약간 더 나은 수치입니다.

위 내용은 Transformer가 다시 Diffusion을 이겼습니다! Google, 차세대 텍스트 이미지 생성 모델인 Muse 출시: 생성 효율성이 10배 증가의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek에 의견을 말하는 방법 DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 Mar 04, 2025 pm 11:48 PM

로그인 단계 및 암호 복구 프로세스를 포함하여 참깨 오픈 exchange 웹 버전의 로그인 작업에 대한 자세한 소개는 로그인 실패, 페이지를 열 수 없으며 플랫폼에 부드럽게 로그인 할 수없는 일반적인 문제에 대한 솔루션을 제공합니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

See all articles