최근에는 확산 모델이 GAN 및 자동 회귀 모델을 능가했으며 뛰어난 성능으로 인해 생성 모델의 주류 선택이 되었습니다. SD, SDXL, Midjourney 및 Imagen과 같은 확산 모델 기반 텍스트-이미지 생성 모델은 고품질 이미지를 생성하는 놀라운 능력을 보여주었습니다. 일반적으로 이러한 모델은 기존 하드웨어에서 효율적인 처리와 정확한 모델 교육을 보장하기 위해 특정 해상도로 교육됩니다.
그림 1: SDXL 1.0에서 2048×2048 이미지를 생성하기 위해 다양한 방법을 사용한 비교. [1]
이러한 확산 모델에서는 패턴 중복과 심각한 아티팩트가 자주 발생합니다. 예를 들어 그림 1의 맨 왼쪽에 표시된 것과 같습니다. 이러한 문제는 훈련 해결 범위를 넘어 특히 심각합니다.
홍콩 중문대학교 SenseTime Technology Joint Laboratory 등 기관의 연구진이 확산 모델에서 흔히 사용되는 UNet 구조의 컨볼루션 레이어에 대한 심도 있는 연구를 논문으로 진행하였고, 주파수 관점에서 FouriScale을 제안하였습니다. 그림 2와 같이 도메인 분석.
그림 2 해상도 전반에 걸쳐 일관성을 보장하는 것을 목표로 하는 FouriScale 프로세스의 개략도(주황색 선).
사전 훈련된 확산 모델의 원래 컨볼루션 레이어를 대체하기 위해 확장된 컨볼루션 작업과 저역 통과 필터링 작업을 도입함으로써 다양한 해상도에서 구조 및 규모 일관성을 달성할 수 있습니다. "채우기 후 자르기" 전략과 결합된 이 방법을 사용하면 다양한 크기와 종횡비를 충족하는 이미지를 유연하게 생성할 수 있습니다. 또한 FouriScale을 기준으로 이 방법은 모든 크기의 고해상도 이미지를 생성할 때 완전한 이미지 구조와 우수한 이미지 품질을 보장할 수 있습니다. FouriScale은 오프라인 예측 계산이 필요하지 않으며 호환성과 확장성이 좋습니다.
정량적 및 정성적 실험 결과에 따르면 FouriScale은 사전 훈련된 확산 모델을 사용하여 고해상도 이미지 생성에 있어 상당한 개선을 달성한 것으로 나타났습니다.
1 Atrous convolution은 해상도 전반에 걸쳐 구조적 일관성을 보장합니다
The 확산 모델의 노이즈 제거 네트워크는 일반적으로 특정 해상도의 이미지 또는 잠재 공간에 대해 훈련됩니다. 이 네트워크는 일반적으로 U-Net 구조를 채택합니다. 저자는 추론 단계에서 잡음 제거 네트워크의 매개 변수를 사용하여 재교육 없이도 더 높은 해상도의 이미지를 생성하는 것을 목표로 합니다. 추론 해결 시 구조적 왜곡을 방지하기 위해 저자는 기본 해상도와 고해상도 간의 구조적 일관성을 확립하려고 노력합니다. U-Net의 컨볼루션 레이어의 경우 구조적 일관성은 다음과 같이 표현될 수 있습니다.
여기서 k는 원래 컨볼루션 커널이고 k'는 더 큰 해상도를 위해 맞춤화된 새로운 컨볼루션 커널입니다. 공간 다운샘플링의 주파수 영역 표현에 따르면 다음과 같습니다.
공식 (3)은 다음과 같이 쓸 수 있습니다.
이 공식은 이상적인 컨볼루션 커널의 푸리에 스펙트럼을 보여줍니다. k' should s×s 컨볼루션 커널 k의 푸리에 스펙트럼으로 접합됩니다. 즉, k'의 푸리에 스펙트럼은 주기적인 반복을 가져야 하며, 이러한 반복 패턴이 k의 푸리에 스펙트럼이다.
널리 사용되는 아트러스 컨볼루션은 이 요구 사항을 충족합니다. 아트러스 컨볼루션의 주파수 영역 주기성은 다음 공식으로 표현될 수 있습니다.
사전 훈련된 확산 모델(훈련 해상도는 (h,w))을 사용하여 (H,W)의 고해상도 이미지를 생성하는 경우 아트러스 컨볼루션의 매개 변수는 원래 컨볼루션 커널을 사용하며, 확장 인자는 (H/h, W/w)이며 이상적인 컨볼루션 커널 k'입니다. 2. 저역 통과 필터링은 해상도 전반에 걸쳐 스케일 일관성을 보장합니다. 그러나 그림 3의 왼쪽 상단에 표시된 것처럼 아트러스 컨볼루션만으로는 문제를 완벽하게 해결할 수 없습니다. 세부적인 부분에서 여전히 반복되는 패턴입니다. 저자는 공간적 다운샘플링의 주파수 앨리어싱 현상이 주파수 영역 성분을 변화시켜 해상도에 따라 주파수 영역 분포에 차이가 생기기 때문이라고 생각합니다. 해상도 전반에 걸쳐 스케일 일관성을 보장하기 위해 공간 다운샘플링 후 주파수 앨리어싱 문제를 제거하기 위해 고주파 성분을 필터링하는 저역 통과 필터링을 도입했습니다. 그림 3의 오른쪽 비교 곡선에서 볼 수 있듯이 저역 통과 필터링을 사용한 후에는 고해상도와 저해상도의 주파수 분포가 더 가까워져 일관된 스케일이 보장됩니다. 그림 3의 좌측 하단에서 볼 수 있듯이, 저역 통과 필터링을 적용한 후 디테일의 패턴 반복 현상이 크게 개선된 것을 확인할 수 있다. 그림 3 (a) 저역 통과 필터링 사용 여부를 시각적으로 비교합니다. (b) 저역 통과 필터링이 없는 푸리에 상대 로그 진폭 곡선. (c) 저역 통과 필터링을 사용한 푸리에 상대 로그 진폭 곡선. 3. 모든 크기의 이미지 생성에 적용됨 위 방법은 FouriScale을 만들기 위해 생성된 해상도의 종횡비가 기본 추론 해상도와 일치하는 경우에만 적용할 수 있습니다. 이미지 생성을 위해 저자는 "채운 후 자르기" 방법을 채택합니다. 방법 1은 이 전략을 결합한 FouriScale의 의사 코드를 보여줍니다. FouriScale의 주파수 영역 작업은 생성된 이미지에서 필연적으로 세부 정보 손실과 바람직하지 않은 아티팩트를 발생시킵니다. 이미지. 이 문제를 해결하기 위해 저자는 그림 4와 같이 FouriScale을 지침 방법으로 제안했다. 구체적으로 기존의 조건부 발전량 추정과 무조건적 발전량 추정을 바탕으로 조건부 발전량 추정을 추가로 도입하였다. 이 추가 조건부 생성 추정의 생성 프로세스에서도 아트러스 컨볼루션을 사용하지만 세부 사항이 손실되지 않도록 보다 부드러운 저역 통과 필터링을 사용합니다. 동시에 그들은 FouriScale의 조건부 생성 추정 출력에 있는 Attention 점수를 사용하여 이 추가 조건부 생성 추정의 Attention 점수를 대체합니다. Attention 점수에는 생성된 이미지의 구조적 정보가 포함되어 있으므로 이 작업은 이미지를 올바르게 생성합니다. 화질을 보장하면서 구조 정보를 도입합니다. 그림 4 (a) FouriScale 부팅 다이어그램. (b) FouriScale을 가이드로 사용하지 않고 생성된 이미지에는 명백한 아티팩트와 세부 오류가 있습니다. (c) FouriScale을 가이드로 사용하여 생성된 이미지.
1. 정량적 테스트 결과
2. 정성적 테스트 결과 그림 5에서 볼 수 있듯이 해당 방법은 사전 훈련된 각 모델과 다양한 해상도에서 이미지 생성 품질과 일관된 구조를 보장할 수 있습니다. 그림 5 다양한 훈련 없는 방법으로 생성된 이미지 비교 이 논문에서는 사전 훈련된 확산 모델의 고해상도 이미지 생성 기능을 향상시키기 위해 FouriScale을 제안합니다. FouriScale은 주파수 영역에서 분석되고 아트러스 컨볼루션 및 저역 통과 필터링 작업을 통해 다양한 해상도에서 구조 및 스케일 일관성을 개선하여 반복 패턴 및 구조적 왜곡과 같은 주요 과제를 해결합니다. "채우기 후 자르기" 전략을 채택하고 FouriScale을 가이드로 사용하면 다양한 종횡비에 적응하면서 텍스트-이미지 생성의 유연성과 품질이 향상됩니다. 정량적 및 정성적 실험 비교를 통해 FouriScale은 다양한 사전 훈련된 모델과 다양한 해상도에서 더 높은 이미지 생성 품질을 보장할 수 있음을 보여줍니다. 저자는 [1]의 방법을 따랐고 세 가지 Vincent 다이어그램 모델(SD 1.5, SD 2.1 및 SDXL 1.0 포함)을 테스트했으며, 4개의 고해상도 이미지가 생성되었습니다. 테스트된 해상도는 해당 훈련 해상도의 픽셀 수의 4x, 6.25x, 8x 및 16x였습니다. Laion-5B에서 30000/10000 이미지-텍스트 쌍을 무작위로 샘플링한 결과는 표 1에 나와 있습니다. 각각 사전 훈련된 모델은 다양한 해상도에서 최적의 결과를 달성합니다.
결론
위 내용은 교육이 필요하지 않으며 이 새로운 방법을 사용하면 이미지 크기와 해상도를 자유롭게 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!