비주얼 생성 분야의 급속한 발전 과정에서 확산 모델은 이 분야의 개발 추세를 완전히 바꾸어 놓았고, 텍스트 기반 생성 기능의 도입은 역량에 있어 근본적인 변화를 의미합니다.
그러나 이러한 모델을 규제하기 위해 텍스트에만 의존하는 것은 다양한 애플리케이션과 시나리오의 다양하고 복잡한 요구 사항을 완전히 충족할 수 없습니다.
이러한 단점을 감안하여 많은 연구에서는 사전 훈련된 T2I(텍스트-이미지 변환) 모델을 제어하여 새로운 조건을 지원하는 것을 목표로 합니다.
Beijing University of Posts and Telecommunications의 연구원들은 제어 가능한 T2I 확산 모델 생성에 대한 심층적인 검토를 수행하여 이 분야의 이론적 기초와 실제 진행 상황을 간략하게 설명했습니다. 이 리뷰는 최신 연구 결과를 다루고 있으며 이 분야의 개발 및 적용에 대한 중요한 참고 자료를 제공합니다.
Paper: https://arxiv.org/abs/2403.04279 Code: https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models
저희 리뷰는 개요 잡음이 제거된 확산 확률 모델(DDPM)과 널리 사용되는 T2I 확산 모델의 기본 사항을 소개하는 것으로 시작합니다.
확산 모델의 제어 메커니즘을 추가로 조사하고 이론적 분석을 통해 노이즈 제거 과정에 새로운 조건을 도입하는 효과를 확인했습니다.
이외에도 이 분야의 연구를 구체적으로 정리하고 특정 조건 생성, 다중 조건 생성, 일반 제어성 생성 등 조건 관점에서 다양한 카테고리로 나누어 보았습니다.
그림 1 T2I 확산 모델을 사용한 제어 가능 발전의 개략도. 텍스트 조건을 기반으로 "identity" 조건을 추가하여 출력 결과를 제어합니다.
텍스트 확산 모델을 사용한 조건부 생성 작업은 다면적이고 복잡한 분야를 나타냅니다. 조건부 관점에서 이 작업을 세 개의 하위 작업으로 나눕니다(그림 2 참조).
그림 2 제어 가능 세대의 분류. 조건 관점에서 제어 가능 생성 방법을 특정 조건 생성, 다중 조건 생성, 일반 제어 가능 생성의 세 가지 하위 작업으로 나눕니다.
대부분의 연구는 이미지 유도 생성, 스케치-이미지 생성 등 특정 조건에서 이미지를 생성하는 방법에 집중됩니다.
이러한 방법의 이론과 특징을 밝히기 위해 상태 유형에 따라 더 분류합니다.
1. 특정 조건을 사용하여 생성: 사용자 정의 조건(예: DreamBooth, Textual Inversion)과 ControlNet 시리즈, 생리적 조건과 같은 보다 직접적인 조건을 포함하여 특정 유형의 조건을 도입하는 방법을 나타냅니다. signal-to-Image
2. 다중 조건 생성: 여러 조건을 사용하여 생성하며 기술적 관점에서 이 작업을 세분화합니다.
3. 통합 제어 가능 생성: 이 작업은 모든 조건(어떤 숫자라도)을 사용하여 생성할 수 있도록 설계되었습니다.
T2I 확산 모델에 새로운 조건을 도입하는 방법
자세한 내용은 원본 논문을 참조하세요. 이러한 방법의 메커니즘은 아래에 간략하게 소개되어 있습니다.
조건부 점수 예측
T2I 확산 모델에서는 학습 가능한 모델(UNet 등)을 사용하여 잡음 제거 과정에서 확률 점수(즉, 잡음)를 예측하는 것이 기본적이고 효과적인 방법입니다. .
조건 기반 점수 예측 방법에서는 새로운 조건을 예측 모델의 입력으로 사용하여 새로운 점수를 직접 예측합니다.
새로운 조건을 도입하는 방법은 세 가지로 나눌 수 있습니다.
1. 모델 기반 조건 점수 예측: 이 유형의 방법은 새로운 조건을 인코딩하는 모델을 도입하고 인코딩 기능을 UNet의 입력으로 사용합니다(예: 교차 주의 계층에서 작동).
2. 미세 조정을 기반으로 한 조건부 점수 예측: 이 유형의 방법은 명시적 조건을 사용하지 않지만 텍스트 임베딩 및 노이즈 제거 네트워크의 매개변수를 미세 조정합니다. 새로운 조건의 정보를 학습함으로써 미세 조정된 가중치를 사용하여 제어 가능한 생성을 달성합니다. 예를 들어 DreamBooth와 Textual Inversion이 그러한 사례입니다.
3. 훈련 없이 조건부 점수 예측: 이 유형의 방법은 모델 훈련이 필요하지 않으며 Layout-to-Image(예: 레이아웃 이미지 생성) 작업에서는 교차 관심 레이어의 Attention Map을 직접 수정하여 객체의 레이아웃을 설정할 수 있습니다.
조건부 유도 평가의 점수 추정 방법은 조건부 예측 모델(예: 위의 Condition Predictor)을 통해 기울기를 역전파하여 잡음 제거 과정에 조건부 지침을 추가하는 것입니다. ).
특정 조건을 사용하여 생성
1. 맞춤화: 맞춤형 작업은 제어 가능한 생성을 위한 생성 조건으로 개념을 캡처하고 활용하도록 설계되었습니다. 텍스트를 통해 설명되며 예시 이미지에서 추출해야 합니다. DreamBooth, Textutal Inversion, LoRA 등이 있습니다.
2. 공간 제어: 텍스트는 위치, 조밀한 레이블 등의 구조적 정보를 표현하기 어렵기 때문에 공간 신호를 사용하여 레이아웃과 같은 텍스트-이미지 확산 방법을 제어하는 것이 중요한 연구 분야입니다. , 인간의 자세, 인체 분석. ControlNet과 같은 방법.
3. 고급 텍스트 조건 생성: 텍스트가 텍스트-이미지 확산 모델에서 기본 조건 역할을 하지만 이 분야에는 여전히 몇 가지 과제가 있습니다.
우선, 여러 주제나 풍부한 설명이 포함된 복잡한 텍스트에서 텍스트 기반 합성을 수행할 때 텍스트 정렬 문제가 자주 발생합니다. 또한 이러한 모델은 주로 영어 데이터 세트에 대해 학습되므로 다국어 생성 기능이 크게 부족합니다. 이러한 한계를 해결하기 위해 많은 연구에서 이러한 모델 언어의 범위를 확장하는 것을 목표로 하는 혁신적인 접근 방식을 제안했습니다.
4. In-Context Generation: 컨텍스트 생성 작업에서는 한 쌍의 작업별 예제 이미지와 텍스트 지침을 기반으로 새로운 쿼리 이미지에 대한 특정 작업을 이해하고 수행합니다.
5. 뇌 유도 생성: 뇌 유도 생성 작업은 뇌파검사(EEG) 기록 및 기능적 자기공명영상(fMRI)과 같은 뇌 활동에서 직접 이미지 생성을 제어하는 데 중점을 둡니다.
6. 사운드 기반 생성: 소리를 기반으로 일치하는 이미지를 생성합니다.
7. 텍스트 렌더링: 포스터, 데이터 표지, 이모티콘 및 기타 응용 프로그램 시나리오에 널리 사용할 수 있는 텍스트를 이미지로 생성합니다.
다조건 생성
다조건 생성 작업은 사용자가 정의한 포즈로 특정 인물을 생성하거나, 포즈를 취한 특정 인물을 생성하는 등 여러 조건을 기반으로 이미지를 생성하도록 설계되었습니다. 세 가지 개인화된 신원.
이 섹션에서는 기술적 관점에서 이러한 방법에 대한 포괄적인 개요를 제공하고 이를 다음 범주로 분류합니다.
1. 합동 훈련: 훈련 단계에서 합동 훈련을 위한 여러 조건을 소개합니다.
2. 연속 학습: 여러 조건을 순차적으로 학습하고, 다중 조건 생성을 달성하기 위해 새로운 조건을 배우면서 이전 조건을 잊지 마십시오.
3. 가중치 융합: 가중 융합을 위해 다양한 조건에서 미세 조정한 매개변수를 사용하여 동시에 여러 조건에서 모델을 생성할 수 있습니다.
4. Attention-based Integration: 다중 조건 생성을 달성하기 위해 Attention Map을 통해 이미지에서 여러 조건(일반적으로 객체)의 위치를 설정합니다.
특정 유형의 조건에 맞게 조정된 방법 외에도 이미지 생성 시 임의의 조건에 적응하도록 설계된 일반적인 방법도 있습니다.
이러한 방법은 이론적 기초에 따라 크게 두 그룹, 즉 일반 조건부 점수 예측 프레임워크와 일반 조건부 부트스트랩 점수 추정으로 분류됩니다.
1. 보편적 조건 점수 예측 프레임워크: 보편적 조건 점수 예측 프레임워크는 주어진 조건을 인코딩하고 이를 활용하여 이미지 합성 중 모든 시간 단계에서 노이즈를 예측할 수 있는 프레임워크를 생성하는 방식으로 작동합니다.
이 방법은 다양한 조건에 유연하게 적응할 수 있는 보편적인 솔루션을 제공합니다. 조건부 정보를 생성 모델에 직접 통합함으로써 이 접근 방식을 통해 이미지 생성 프로세스를 다양한 조건에 따라 동적으로 조정할 수 있으므로 다양한 이미지 합성 시나리오에 다용도로 적용할 수 있습니다.
2. 일반 조건부 안내 점수 추정: 다른 방법은 조건부 안내 점수 추정을 활용하여 다양한 조건을 텍스트-이미지 확산 모델에 통합합니다. 주요 과제는 잡음 제거 중 잠재 변수로부터 조건별 지침을 얻는 것입니다.
새로운 조건을 도입하면 이미지 편집, 이미지 완성, 이미지 조합, 텍스트/이미지 생성 3D를 포함한 여러 작업에 유용할 수 있습니다.
예를 들어 이미지 편집에서는 맞춤형 방식을 사용하여 사진 속 고양이를 특정 아이덴티티를 지닌 고양이로 편집할 수 있습니다. 기타 내용은 해당 논문을 참고하시기 바랍니다.
이 리뷰는 텍스트-이미지 확산 모델의 조건부 생성 분야를 조사하여 텍스트 기반 생성 프로세스에 통합된 새로운 조건을 드러냅니다.
먼저 저자는 잡음 제거 확산 확률 모델, 유명한 텍스트-이미지 확산 모델 및 잘 구조화된 분류법을 소개하면서 독자들에게 기본 지식을 제공합니다. 그 후, 저자들은 T2I 확산 모델에 새로운 조건을 도입하는 메커니즘을 밝혔습니다.
이후 저자는 기존의 조건부 생성 방식을 정리하고 이론적 근거, 기술진보, 해결전략 측면에서 분석한다.
또한 저자는 제어 가능한 세대의 실제 적용을 탐구하면서 AI 콘텐츠 생성 시대에 제어 가능한 세대의 중요한 역할과 엄청난 잠재력을 강조합니다.
이 설문조사의 목적은 제어 가능한 T2I 생성 분야의 현재 상태를 포괄적으로 이해하여 이 역동적인 연구 분야의 지속적인 발전과 확장을 촉진하는 것입니다.
위 내용은 제어 가능한 이미지 생성에 대한 최신 리뷰! 베이징 우편통신대학교는 텍스트-이미지 확산 분야의 다양한 '조건'을 다루는 249개의 문서 중 20페이지를 공개했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!