확산 모델은 이미지 생성에서 색상을 표현하는 역할을 하며 생성 모델의 새로운 시대를 주도합니다. Stable Diffusion, DALLE, Imagen, SORA와 같은 대형 모델이 등장하여 생성 AI의 응용 배경이 더욱 풍부해졌습니다. 그러나 현재의 확산 모델은 이론적으로 완벽하지 않으며 샘플링 기간의 끝점에서 정의되지 않은 특이점 문제에 주목한 연구는 거의 없습니다. 또한, 애플리케이션의 특이성 문제로 인해 발생하는 평균 계조 문제와 생성된 이미지의 품질에 영향을 미치는 기타 문제는 해결되지 않았습니다.
이 문제를 해결하기 위해 WeChat Vision 팀은 중산대학교와 협력하여 확산 모델의 특이점 문제를 공동으로 탐색하고 초기에 샘플링 문제를 효과적으로 해결하는 플러그 앤 플레이 방식을 제안했습니다. 순간. 이 방법은 평균 계조 문제를 성공적으로 해결하고 기존 확산 모델의 생성 능력을 크게 향상시킵니다. 이번 연구 결과는 CVPR 2024 컨퍼런스에서 발표됐다.
확산 모델은 이미지, 오디오, 텍스트 및 비디오 생성을 포함한 다중 모드 콘텐츠 생성 작업에서 상당한 성공을 거두었습니다. 이러한 모델의 성공적인 모델링은 대부분 확산 과정의 역 과정도 가우스 속성을 따른다는 가정에 의존합니다. 그러나 이 가설은 완전히 입증되지 않았습니다. 특히 끝점, 즉 t=0 또는 t=1에서는 특이점 문제가 발생하게 되며, 이는 특이점에서의 샘플링을 연구하는 기존 방법을 제한합니다.
또한 특이점 문제는 확산 모델의 생성 능력에도 영향을 미쳐 모델에 평균 회색조 문제가 발생하게 됩니다. 즉, 그림과 같이 밝기가 강하거나 약한 이미지를 생성하기 어렵습니다. 아래 그림에서. 이는 또한 현재 확산 모델의 적용 범위를 어느 정도 제한합니다.
시간 종료점에서 확산 모델의 특이성 문제를 해결하기 위해 WeChat 비전 팀은 쑨원대학교와 협력하여 이론 및 실무 측면 모두에서 심층적인 연구를 수행했습니다. 먼저, 연구팀은 특이점 순간의 역과정의 대략적인 가우스 분포를 포함하는 오차 상한을 제안했으며, 이는 후속 연구의 이론적 기반을 제공합니다. 이러한 이론적 보장을 바탕으로 팀은 특이점에서의 샘플링을 연구하여 두 가지 중요한 결론에 도달했습니다. 1) t=1의 특이점은 극한을 찾아 분리 가능한 특이점으로 변환할 수 있습니다. 2) t=0의 특이점 확산 모델의 고유한 속성이므로 피할 필요가 없습니다. 이러한 결론을 바탕으로 팀은 초기 순간에 확산 모델을 샘플링하는 문제를 해결하기 위해 플러그 앤 플레이 방법인 SingDiffusion을 제안했습니다.
SingDiffusion 모듈은 단 한 번의 훈련으로 기존 확산 모델에 원활하게 적용되어 평균 회색값 문제를 크게 해결할 수 있다는 것이 수많은 실험을 통해 입증되었습니다. 분류기가 없는 유도 기술을 사용하지 않고도 SingDiffusion은 현재 방법의 생성 품질을 크게 향상시킬 수 있습니다. 특히 Stable Diffusion 1.5(SD-1.5)에 적용된 후 생성되는 이미지의 품질이 33% 향상되었습니다.
논문 주소: https://arxiv.org/pdf/2403.08381.pdf
프로젝트 주소: https://pangzecheung.github.io/SingDiffusion/
논문 제목: Tackling 확산 모델의 시간 간격 끝점에서의 특이점
확산 모델의 특이점 문제를 연구하려면 다음과 같은 특이점에서의 역과정을 검증해야 합니다. 전체 프로세스는 가우스 속성을 만족합니다. 먼저 를 확산 모델의 훈련 표본으로 정의합니다. 훈련 표본의 분포는 다음과 같이 표현될 수 있습니다.
여기서 δ는 Dirac 함수를 나타냅니다. [1]의 연속 시간 확산 모델의 정의에 따르면 임의의 두 순간 0≤s,t≤1에 대해 전진 과정은 다음과 같이 표현될 수 있습니다.
여기서 , , , 은 시간이 지남에 따라 1에서 0으로 단조롭게 변경됩니다. 방금 정의한 학습 표본 분포를 고려하면 의 단일 순간 주변 확률 밀도는 다음과 같이 표현될 수 있습니다.
이로부터 역과정의 조건부 분포는 베이지안 공식을 통해 계산될 수 있습니다.
그러나 얻은 분포는 네트워크에 적합하기 어려운 혼합 가우스 분포입니다. 따라서 주류 확산 모델은 일반적으로 이 분포가 단일 가우스 분포로 적합할 수 있다고 가정합니다.
여기서, 이 가정을 확인하기 위해 이 연구에서는 이를 명제 1 오류에 적합하다고 추정했습니다.
그러나 연구 결과 t=1일 때 s가 1에 가까워질수록 도 1에 가까워지며 오류를 무시할 수 없는 것으로 나타났습니다. 따라서 명제 1은 t=1에서 역 가우스 속성을 증명하지 않습니다. 이 문제를 해결하기 위해 본 연구에서는 새로운 명제를 제시합니다.
명제 2에 따르면, t=1일 때 s가 1에 가까워질수록 은 0에 가까워집니다. 따라서 본 연구에서는 특이점 모멘트를 포함한 전체 역과정이 가우스 특성을 따른다는 것을 증명하였다.
본 연구에서는 역추출과정의 가우스 특성을 보장하기 위해 역표본식을 기반으로 특이점 순간의 샘플링에 대한 연구를 진행하였다.
먼저 시간 t=1에서의 특이점 문제를 고려해보세요. t=1, =0일 때 다음 샘플링 공식은 분모를 0으로 나눈 값을 갖게 됩니다.
연구팀은 극한을 계산함으로써 이 특이점이 분리 가능한 특이점으로 변환될 수 있음을 발견했습니다.
그러나 테스트 중에는 이 한도를 계산할 수 없습니다. 이를 위해 본 연구에서는 를 시간 t=1에 맞추고 "x-예측"을 사용하여 초기 특이점에서 샘플링 문제를 해결할 수 있다고 제안합니다.
그런 다음 시간 t=0을 고려하면 가우스 분포 피팅의 역과정은 분산이 0인 가우스 분포, 즉 Dirac 함수:
여기서 입니다. 이러한 특이점으로 인해 샘플링 프로세스가 올바른 데이터로 수렴됩니다. 따라서 t=0에서의 특이점은 확산 모델의 좋은 특성이므로 피할 필요가 없습니다.
또한, 이 연구는 부록에서 DDIM, SDE, ODE의 특이점 문제도 탐구합니다.
특이점 샘플링은 확산 모델에서 생성된 이미지 품질에 영향을 미칩니다. 예를 들어 밝기가 높거나 낮은 단서를 입력할 때 기존 방법으로는 평균 계조의 이미지만 생성할 수 있는 경우가 많으며 이를 평균 계조 문제라고 합니다. 이 문제는 기존 방법이 t=0의 특이점에서 샘플링을 무시하고 대신 1-ϵ 시간에서 샘플링을 위한 초기 분포로 표준 가우스 분포를 사용한다는 사실에서 비롯됩니다. 그러나 위 그림에서 볼 수 있듯이 1-ϵ 시점에서는 표준 가우스 분포와 실제 데이터 분포 사이에 큰 차이가 있습니다.
이러한 간격 하에서 명제 3에 따르면 기존 방법은 t=1에서 평균값이 0인 이미지, 즉 평균 회색조 이미지를 생성하는 것과 동일합니다. 따라서 기존 방식으로는 밝기가 극도로 강하거나 약한 영상을 생성하는 것이 어렵다. 이 문제를 해결하기 위해 본 연구에서는 표준 가우스 분포와 실제 데이터 분포 간의 변환을 피팅하여 이러한 격차를 해소하는 플러그 앤 플레이 SingDiffusion 방법을 제안합니다.
SingDiffuion의 알고리즘은 아래 그림과 같습니다.
이전 섹션의 결론에 따라 본 연구에서는 샘플링을 해결하기 위해 시간 t=1에서 "x - 예측" 방법을 사용했습니다. 특이점에 문제가 있습니다. 이미지-텍스트 데이터 쌍 의 경우 이 방법은 Unet 을 에 맞게 교육합니다. 손실 함수는 다음과 같이 표현됩니다.
모델이 수렴된 후 아래 DDIM 샘플링 공식을 따르고 새로 얻은 모듈 sampling을 사용할 수 있습니다.
DDIM의 샘플링 공식은 생성된 가 1-ε 순간 의 데이터 분포를 준수하도록 보장하여 평균 회색조 문제를 해결합니다. 이 단계 후에 사전 훈련된 모델을 사용하여 이 생성될 때까지 후속 샘플링 단계를 수행할 수 있습니다. 이 방법은 샘플링의 첫 번째 단계에만 참여하고 후속 샘플링 프로세스와는 아무런 관련이 없으므로 SingDiffusion은 대부분의 기존 확산 모델에 적용할 수 있습니다. 또한 분류자 안내 작업이 없는 경우 발생하는 데이터 오버플로 문제를 방지하기 위해 이 방법에서는 다음 정규화 작업도 사용합니다.
여기서 안내는 분류자 안내 작업이 없는 후의 결과를 나타내고 neg는 부정적인 프롬프트를 나타냅니다. 아래의 출력, pos는 긍정적인 프롬프트 아래의 출력을 나타내고 Ω는 안내 강도를 나타냅니다.
먼저, 이 연구에서는 SD-1.5, SD-2.0-base 및 SD-2.0의 세 가지 모델에서 평균 회색조 문제를 해결하는 SingDiffusion의 능력을 검증했습니다. 본 연구에서는 "순백색/검은색 배경", "흰색/검은색 바탕에 단색 라인아트 로고" 등 4가지 극단적인 프롬프트를 생성 조건으로 선택하고, 생성된 이미지의 평균 계조값을 아래 표와 같이 계산하였다. 표시:
표에서 볼 수 있듯이 이 연구는 평균 회색 값 문제를 크게 해결하고 입력 텍스트 설명의 밝기와 일치하는 이미지를 생성할 수 있습니다. 또한 연구에서는 아래 그림과 같이 4개의 프롬프트 명령문에 따라 생성 결과를 시각화했습니다.
그림에서 볼 수 있듯이 이 방법을 추가한 후 기존 확산 모델은 부분 흑백 이미지.
이 방법으로 달성한 이미지 품질 향상에 대해 더 자세히 연구하기 위해 연구에서는 COCO 데이터 세트에 대한 테스트용 설명 30,000개를 선택했습니다. 우선, 본 연구에서는 다음 표와 같이 분류기 지침을 사용하지 않고 모델 자체의 생성 능력을 보여줍니다.
표에서 볼 수 있듯이 제안된 방법은 이미지를 생성하고 CLIP 표시기를 개선합니다. SD-1.5 모델에서 본 논문의 방법은 원래 모델에 비해 FID 지수를 33% 감소시킨다는 점에 주목할 필요가 있다.
또한 분류자 안내 없이 제안된 방법의 생성 능력을 검증하기 위해 연구에서는 다양한 안내 크기 Ω∈[1.5,2,3,4,5,6,7에서 아래 그림을 보여줍니다. ,8] CLIP 대 FID의 파레토 곡선:
그림에서 볼 수 있듯이 동일한 CLIP 레벨에서 제안하는 방법은 더 낮은 FID 값을 얻을 수 있으며 보다 사실적인 이미지를 생성할 수 있습니다.
또한 이 연구는 아래 그림과 같이 다양한 CIVITAI 사전 학습 모델에서 제안된 방법의 일반화 능력을 보여줍니다.
본 연구에서 제안한 방법은 단 한 번의 훈련만 필요하며 기존 확산 모델에 쉽게 적용하여 평균 회색조 문제를 해결할 수 있음을 알 수 있습니다.
마지막으로, 본 연구에서 제안한 방법은 아래 그림과 같이 사전 훈련된 ControlNet 모델에도 원활하게 적용될 수 있습니다.
결과에서 볼 수 있듯이 이 방법은 ControlNet의 평균 그레이스케일 문제를 효과적으로 해결합니다.
위 내용은 매우 강한 빛으로는 사진을 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!