교육이 필요하지 않으며 이 새로운 방법을 사용하면 이미지 크기와 해상도를 자유롭게 생성할 수 있습니다.
최근에는 확산 모델이 GAN 및 자동 회귀 모델을 능가했으며 뛰어난 성능으로 인해 생성 모델의 주류 선택이 되었습니다. SD, SDXL, Midjourney 및 Imagen과 같은 확산 모델 기반 텍스트-이미지 생성 모델은 고품질 이미지를 생성하는 놀라운 능력을 보여주었습니다. 일반적으로 이러한 모델은 기존 하드웨어에서 효율적인 처리와 정확한 모델 교육을 보장하기 위해 특정 해상도로 교육됩니다.
그림 1: SDXL 1.0에서 2048×2048 이미지를 생성하기 위해 다양한 방법을 사용한 비교. [1]
이러한 확산 모델에서는 패턴 중복과 심각한 아티팩트가 자주 발생합니다. 예를 들어 그림 1의 맨 왼쪽에 표시된 것과 같습니다. 이러한 문제는 훈련 해결 범위를 넘어 특히 심각합니다.
홍콩 중문대학교 SenseTime Technology Joint Laboratory 등 기관의 연구진이 확산 모델에서 흔히 사용되는 UNet 구조의 컨볼루션 레이어에 대한 심도 있는 연구를 논문으로 진행하였고, 주파수 관점에서 FouriScale을 제안하였습니다. 그림 2와 같이 도메인 분석.
그림 2 해상도 전반에 걸쳐 일관성을 보장하는 것을 목표로 하는 FouriScale 프로세스의 개략도(주황색 선).
사전 훈련된 확산 모델의 원래 컨볼루션 레이어를 대체하기 위해 확장된 컨볼루션 작업과 저역 통과 필터링 작업을 도입함으로써 다양한 해상도에서 구조 및 규모 일관성을 달성할 수 있습니다. "채우기 후 자르기" 전략과 결합된 이 방법을 사용하면 다양한 크기와 종횡비를 충족하는 이미지를 유연하게 생성할 수 있습니다. 또한 FouriScale을 기준으로 이 방법은 모든 크기의 고해상도 이미지를 생성할 때 완전한 이미지 구조와 우수한 이미지 품질을 보장할 수 있습니다. FouriScale은 오프라인 예측 계산이 필요하지 않으며 호환성과 확장성이 좋습니다.
정량적 및 정성적 실험 결과에 따르면 FouriScale은 사전 훈련된 확산 모델을 사용하여 고해상도 이미지 생성에 있어 상당한 개선을 달성한 것으로 나타났습니다.
- 논문 주소: https://arxiv.org/abs/2403.12963
- 오픈 소스 코드: https://github.com/LeonHLJ/FouriScale
- 논문 제목: FouriScale: A Frequency Perspective on Training-Free 고해상도 이미지 합성
방법 소개
1 Atrous convolution은 해상도 전반에 걸쳐 구조적 일관성을 보장합니다
The 확산 모델의 노이즈 제거 네트워크는 일반적으로 특정 해상도의 이미지 또는 잠재 공간에 대해 훈련됩니다. 이 네트워크는 일반적으로 U-Net 구조를 채택합니다. 저자는 추론 단계에서 잡음 제거 네트워크의 매개 변수를 사용하여 재교육 없이도 더 높은 해상도의 이미지를 생성하는 것을 목표로 합니다. 추론 해결 시 구조적 왜곡을 방지하기 위해 저자는 기본 해상도와 고해상도 간의 구조적 일관성을 확립하려고 노력합니다. U-Net의 컨볼루션 레이어의 경우 구조적 일관성은 다음과 같이 표현될 수 있습니다.
여기서 k는 원래 컨볼루션 커널이고 k'는 더 큰 해상도를 위해 맞춤화된 새로운 컨볼루션 커널입니다. 공간 다운샘플링의 주파수 영역 표현에 따르면 다음과 같습니다.
공식 (3)은 다음과 같이 쓸 수 있습니다.
이 공식은 이상적인 컨볼루션 커널의 푸리에 스펙트럼을 보여줍니다. k' should s×s 컨볼루션 커널 k의 푸리에 스펙트럼으로 접합됩니다. 즉, k'의 푸리에 스펙트럼은 주기적인 반복을 가져야 하며, 이러한 반복 패턴이 k의 푸리에 스펙트럼이다.
널리 사용되는 아트러스 컨볼루션은 이 요구 사항을 충족합니다. 아트러스 컨볼루션의 주파수 영역 주기성은 다음 공식으로 표현될 수 있습니다. 사전 훈련된 확산 모델(훈련 해상도는 (h,w))을 사용하여 (H,W)의 고해상도 이미지를 생성하는 경우 아트러스 컨볼루션의 매개 변수는 원래 컨볼루션 커널을 사용하며, 확장 인자는 (H/h, W/w)이며 이상적인 컨볼루션 커널 k'입니다. 2. 저역 통과 필터링은 해상도 전반에 걸쳐 스케일 일관성을 보장합니다. 그러나 그림 3의 왼쪽 상단에 표시된 것처럼 아트러스 컨볼루션만으로는 문제를 완벽하게 해결할 수 없습니다. 세부적인 부분에서 여전히 반복되는 패턴입니다. 저자는 공간적 다운샘플링의 주파수 앨리어싱 현상이 주파수 영역 성분을 변화시켜 해상도에 따라 주파수 영역 분포에 차이가 생기기 때문이라고 생각합니다. 해상도 전반에 걸쳐 스케일 일관성을 보장하기 위해 공간 다운샘플링 후 주파수 앨리어싱 문제를 제거하기 위해 고주파 성분을 필터링하는 저역 통과 필터링을 도입했습니다. 그림 3의 오른쪽 비교 곡선에서 볼 수 있듯이 저역 통과 필터링을 사용한 후에는 고해상도와 저해상도의 주파수 분포가 더 가까워져 일관된 스케일이 보장됩니다. 그림 3의 좌측 하단에서 볼 수 있듯이, 저역 통과 필터링을 적용한 후 디테일의 패턴 반복 현상이 크게 개선된 것을 확인할 수 있다. 그림 3 (a) 저역 통과 필터링 사용 여부를 시각적으로 비교합니다. (b) 저역 통과 필터링이 없는 푸리에 상대 로그 진폭 곡선. (c) 저역 통과 필터링을 사용한 푸리에 상대 로그 진폭 곡선. 3. 모든 크기의 이미지 생성에 적용됨 위 방법은 FouriScale을 만들기 위해 생성된 해상도의 종횡비가 기본 추론 해상도와 일치하는 경우에만 적용할 수 있습니다. 이미지 생성을 위해 저자는 "채운 후 자르기" 방법을 채택합니다. 방법 1은 이 전략을 결합한 FouriScale의 의사 코드를 보여줍니다. FouriScale의 주파수 영역 작업은 생성된 이미지에서 필연적으로 세부 정보 손실과 바람직하지 않은 아티팩트를 발생시킵니다. 이미지. 이 문제를 해결하기 위해 저자는 그림 4와 같이 FouriScale을 지침 방법으로 제안했다. 구체적으로 기존의 조건부 발전량 추정과 무조건적 발전량 추정을 바탕으로 조건부 발전량 추정을 추가로 도입하였다. 이 추가 조건부 생성 추정의 생성 프로세스에서도 아트러스 컨볼루션을 사용하지만 세부 사항이 손실되지 않도록 보다 부드러운 저역 통과 필터링을 사용합니다. 동시에 그들은 FouriScale의 조건부 생성 추정 출력에 있는 Attention 점수를 사용하여 이 추가 조건부 생성 추정의 Attention 점수를 대체합니다. Attention 점수에는 생성된 이미지의 구조적 정보가 포함되어 있으므로 이 작업은 이미지를 올바르게 생성합니다. 화질을 보장하면서 구조 정보를 도입합니다. 그림 4 (a) FouriScale 부팅 다이어그램. (b) FouriScale을 가이드로 사용하지 않고 생성된 이미지에는 명백한 아티팩트와 세부 오류가 있습니다. (c) FouriScale을 가이드로 사용하여 생성된 이미지.
1. 정량적 테스트 결과
2. 정성적 테스트 결과 그림 5에서 볼 수 있듯이 해당 방법은 사전 훈련된 각 모델과 다양한 해상도에서 이미지 생성 품질과 일관된 구조를 보장할 수 있습니다. 그림 5 다양한 훈련 없는 방법으로 생성된 이미지 비교 이 논문에서는 사전 훈련된 확산 모델의 고해상도 이미지 생성 기능을 향상시키기 위해 FouriScale을 제안합니다. FouriScale은 주파수 영역에서 분석되고 아트러스 컨볼루션 및 저역 통과 필터링 작업을 통해 다양한 해상도에서 구조 및 스케일 일관성을 개선하여 반복 패턴 및 구조적 왜곡과 같은 주요 과제를 해결합니다. "채우기 후 자르기" 전략을 채택하고 FouriScale을 가이드로 사용하면 다양한 종횡비에 적응하면서 텍스트-이미지 생성의 유연성과 품질이 향상됩니다. 정량적 및 정성적 실험 비교를 통해 FouriScale은 다양한 사전 훈련된 모델과 다양한 해상도에서 더 높은 이미지 생성 품질을 보장할 수 있음을 보여줍니다. 저자는 [1]의 방법을 따랐고 세 가지 Vincent 다이어그램 모델(SD 1.5, SD 2.1 및 SDXL 1.0 포함)을 테스트했으며, 4개의 고해상도 이미지가 생성되었습니다. 테스트된 해상도는 해당 훈련 해상도의 픽셀 수의 4x, 6.25x, 8x 및 16x였습니다. Laion-5B에서 30000/10000 이미지-텍스트 쌍을 무작위로 샘플링한 결과는 표 1에 나와 있습니다. 각각 사전 훈련된 모델은 다양한 해상도에서 최적의 결과를 달성합니다.
결론
위 내용은 교육이 필요하지 않으며 이 새로운 방법을 사용하면 이미지 크기와 해상도를 자유롭게 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











크로스 체인 거래를 지원하는 교환 : 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN 거래,이 플랫폼은 다양한 기술을 통해 다중 체인 자산 거래를 지원합니다.

Worldcoin (WLD)은 Cryptocurrency 시장에서 고유 한 생체 인정 및 개인 정보 보호 메커니즘으로 눈에 띄고 많은 투자자의 관심을 끌고 있습니다. WLD는 혁신적인 기술, 특히 OpenAi 인공 지능 기술과 함께 Altcoins에서 뛰어난 성과를 거두었습니다. 그러나 향후 몇 년 안에 디지털 자산은 어떻게 행동 할 것인가? WLD의 미래 가격을 함께 예측합시다. 2025 WLD 가격 예측은 2025 년 WLD에서 상당한 성장을 달성 할 것으로 예상됩니다. 시장 분석에 따르면 평균 WLD 가격은 최대 $ 1.36로 $ 1.31에 도달 할 수 있습니다. 그러나 곰 시장에서 가격은 약 $ 0.55로 떨어질 수 있습니다. 이러한 성장 기대는 주로 WorldCoin2에 기인합니다.

cryptocurrency 시장의 급락으로 인해 투자자들 사이에 공황이 발생했으며 Dogecoin (Doge)은 가장 어려운 지역 중 하나가되었습니다. 가격은 급격히 하락했으며 분산 금융 (DEFI) (TVL)의 총 가치 잠금 장치도 크게 감소했습니다. "Black Monday"의 판매 물결은 cryptocurrency 시장을 휩쓸었고 Dogecoin은 처음으로 타격을 받았습니다. DefitVl은 2023 년 수준으로 떨어졌고 지난 달 통화 가격은 23.78% 하락했습니다. Dogecoin의 Defitvl은 주로 SOSO 가치 지수의 26.37% 감소로 인해 272 만 달러로 떨어졌습니다. 지루한 Dao 및 Thorchain과 같은 다른 주요 Defi 플랫폼도 TVL도 각각 24.04% 및 20으로 떨어졌습니다.

가상 통화 가격 상승의 요인은 다음과 같습니다. 1. 시장 수요 증가, 2. 공급 감소, 3. 긍정적 인 뉴스, 4. 낙관적 시장 감정, 5. 거시 경제 환경; 감소 요인에는 다음이 포함됩니다. 1. 시장 수요 감소, 2. 공급 증가, 3. 부정적인 뉴스의 파업, 4. 비관적 시장 감정, 5. 거시 경제 환경.

Binance는 Global Digital Asset Trading Ecosystem의 대 군주이며, 그 특성에는 다음이 포함됩니다. 1. 평균 일일 거래량은 1,500 억 달러를 초과하여 주류 통화의 98%를 차지하며 500 개의 거래 쌍을 지원합니다. 2. 혁신 매트릭스는 파생 상품 시장, Web3 레이아웃 및 교육 시스템을 포함합니다. 3. 기술적 이점은 밀리 초에 일치하는 엔진이며, 최고 처리량은 초당 140 만 건의 트랜잭션입니다. 4. 규정 준수 진행 상황은 15 개국 라이센스를 보유하고 있으며 유럽과 미국에 준수 엔티티를 설립합니다.

암호 화폐의 번화 한 세계에서는 새로운 기회가 항상 나타납니다. 현재 Kerneldao (Kernel) 에어 드롭 활동은 많은 관심을 끌고 많은 투자자들의 관심을 끌고 있습니다. 그렇다면이 프로젝트의 기원은 무엇입니까? BNB 보유자는 어떤 이점을 얻을 수 있습니까? 걱정하지 마십시오. 다음은 당신을 위해 하나씩 공개 할 것입니다.

2025 년에 레버리지 거래, 보안 및 사용자 경험에서 뛰어난 성능을 보이는 플랫폼은 다음과 같습니다. 1. OKX, 고주파 거래자에게 적합하여 최대 100 배의 레버리지를 제공합니다. 2. Binance, 전 세계의 다중 통화 거래자에게 적합하며 125 배 높은 레버리지를 제공합니다. 3. Gate.io, 전문 파생 상품 플레이어에게 적합하며 100 배의 레버리지를 제공합니다. 4. 초보자 및 소셜 트레이더에게 적합한 Bitget, 최대 100 배의 레버리지를 제공합니다. 5. 크라켄은 꾸준한 투자자에게 적합하며 5 배의 레버리지를 제공합니다. 6. Bybit, Altcoin Explorers에 적합하며 20 배의 레버리지를 제공합니다. 7. 저비용 거래자에게 적합한 Kucoin, 10 배의 레버리지를 제공합니다. 8. 비트 피 넥스, 시니어 플레이에 적합합니다

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 Aavedao의 쿼럼을 구현 한 Token Repos를 소개하는 제안입니다. AAVE 프로젝트 체인 (ACI)의 설립자 인 Marc Zeller는 X에서 이것을 발표하여 계약의 새로운 시대를 표시한다고 지적했습니다. AAVE 체인 이니셔티브 (ACI)의 설립자 인 Marc Zeller는 AAVENOMICS 제안서에 AAVE 프로토콜 토큰 수정 및 토큰 리포지션 도입이 포함되어 있다고 X에서 AAVEDAO에 대한 쿼럼을 달성했다고 발표했습니다. Zeller에 따르면, 이것은 계약의 새로운 시대를 나타냅니다. Aavedao 회원국은 수요일에 주당 100 인 제안을지지하기 위해 압도적으로 투표했습니다.
