AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성-일체 포함-php.cn

Method

Experimentation

집

기술 주변기기

일체 포함

AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성

PHPz

Apr 13, 2023 am 10:37 AM

ai 그림

AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성

논문 주소: https://arxiv.org/pdf/2302.09778v2.pdf
프로젝트 주소: https://github.com/damo-vilab/composer

최근 빅데이터로 학습된 대규모 생성 모델은 이미지를 훌륭하게 합성할 수 있었지만 제어성에 한계가 있었습니다. 제어 가능한 이미지 생성의 핵심은 조건뿐만 아니라 더 중요한 것은 구성성에 달려 있습니다. 후자는 엄청난 수의 잠재적인 조합을 도입하여 제어 공간을 기하급수적으로 확장할 수 있습니다(예: 각각 8개의 표현이 있는 100개의 이미지, 약 100^8개의 조합 생성). 유사한 개념이 언어 및 장면 이해 분야에서 탐구되었습니다. 여기서 구성성은 제한된 알려진 구성 요소 집합에서 잠재적으로 무한한 수의 새로운 조합을 식별하거나 생성하는 기술인 조합 일반화로 알려져 있습니다.

최신 연구는 합성 품질과 모델 창의성을 유지하면서 출력 이미지(예: 공간 레이아웃 및 색상 팔레트)를 유연하게 제어할 수 있는 새로운 생성 패러다임을 제공합니다.

이 연구는 구성성을 핵심 아이디어로 삼아 먼저 이미지를 대표 요소로 분해한 다음 이러한 요소를 조건으로 한 확산 모델을 훈련하여 입력을 재구성합니다. 추론 단계에서 풍부한 중간 표현은 구성 가능한 요소 역할을 하여 사용자 정의 가능한 콘텐츠 생성을 위한 거대한 디자인 공간을 제공합니다(즉, 분해 요소 수에 기하급수적으로 비례). Composer라는 메서드는 전역 정보인 텍스트 설명, 로컬 안내인 깊이 지도 및 스케치, 하위 수준 세부 정보인 색상 히스토그램 등과 같은 다양한 수준의 조건을 지원한다는 점은 주목할 가치가 있습니다.

이 연구는 제어 가능성을 향상시키는 것 외에도 Composer가 재교육 없이도 광범위한 클래식 생성 작업을 용이하게 하는 일반적인 프레임워크 역할을 할 수 있음을 확인합니다.

Method

이 글에서 소개하는 프레임워크는 분해 단계(이미지를 독립된 구성 요소의 집합으로 나눔)와 합성 단계(조건부 확산 모델을 사용하여 구성 요소를 재결합)로 구성됩니다. 여기에서는 먼저 Composer를 사용하여 구현한 확산 모델과 안내 방향을 간략하게 소개한 다음, 이미지 분해 및 합성 구현을 자세히 설명합니다.

2.1. 확산 모델

확산 모델은 반복적인 노이즈 제거 프로세스를 통해 가우스 노이즈로부터 데이터를 생성하는 생성 모델입니다. 단순 평균 제곱 오차는 일반적으로 잡음 제거 목표로 사용됩니다.

AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성

여기서 x_0은 선택적 조건 c가 있는 훈련 데이터이고, AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성 는 가산 가우스 잡음, a_t, σ_t는 t입니다. 스칼라 함수 는 학습 가능한 매개변수 θ가 있는 확산 모델입니다. 분류기가 없는 부트스트래핑은 확산 모델의 조건부 데이터 샘플링을 위한 최근 작업에서 가장 널리 사용되었으며, 여기서 예상 노이즈는 다음과 같이 조정됩니다. DDIM 및 DPM-Solver는 확산 모델의 샘플링 프로세스 속도를 높이는 데 자주 사용됩니다. DDIM을 사용하면 샘플 x_0을 순수 노이즈 잠재력 x_T로 반전하여 다양한 이미지 편집 작업을 수행할 수도 있습니다.

안내 방향: Composer는 여러 조건을 수용할 수 있고 분류자 안내 없이 다양한 방향을 달성할 수 있는 확산 모델입니다.

AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성

c_1과 c_2는 두 가지 조건 세트입니다. c_1과 c_2의 다른 선택은 조건에 대한 다른 강조를 나타냅니다.

(c_2 c_1) 내의 조건은 Ω으로 강조되고, (c_1 c_2) 내의 조건은 (1−Ω)으로 억제되며, c1∩c2 내의 조건은 1.0의 안내 가중치를 갖습니다. 양방향 안내: 조건 c_1을 사용하여 이미지 x_0을 기본 x_T로 반전한 다음 다른 조건 c_2를 사용하여 x_T에서 샘플링함으로써 Composer를 사용하여 조작 방향이 두 방향 사이에 있는 엉킴이 없는 방식으로 이미지를 조작할 수 있습니다. c_2와 c_1은 차이점으로 정의됩니다.

Decomposition

이미지를 이미지의 다양한 측면을 포착하는 분리된 표현으로 분해하는 방법을 연구하고 이 작업에 사용되는 8가지 표현을 설명합니다. 이 표현은 훈련 과정에서 실시간으로 추출됩니다.

캡션 : 연구에서는 이미지-텍스트 교육 데이터(예: LAION-5B(Schuhmann et al., 2022))의 제목 또는 설명 정보를 이미지 캡션으로 직접 사용합니다. 주석을 사용할 수 없는 경우 사전 훈련된 이미지를 활용하여 모델을 설명할 수도 있습니다. 사전 훈련된 CLIP ViT-L /14@336px(Radford et al., 2021) 모델에서 추출된 문장 및 단어 임베딩을 사용하여 이러한 제목의 특성을 파악합니다.

의미론 및 스타일 : 사전 훈련된 CLIP ViT-L/14@336px 모델에서 추출한 이미지 임베딩을 사용하여 unCLIP과 유사하게 이미지의 의미 및 스타일을 특성화하는 연구입니다.

Color: 매끄러운 CIELab 히스토그램을 사용하여 이미지의 색상 통계를 연구합니다. 평활화 시그마 10을 사용하여 CIELab 색상 공간을 11개의 색상 값, 5개의 채도 및 5개의 조명 값으로 양자화합니다. 경험상 이 설정이 더 잘 작동합니다.

Sketch: 가장자리 감지 모델을 적용한 후 스케치 축소 알고리즘을 사용하여 이미지의 스케치를 추출하는 연구입니다. Sketch는 의미가 적은 이미지의 로컬 세부 정보를 캡처합니다.

Instances: 사전 훈련된 YOLOv5 모델을 사용하여 이미지에 인스턴스 분할을 적용하여 인스턴스 마스크를 추출하는 방법을 연구합니다. 인스턴스 분할 마스크는 시각적 개체의 범주 및 모양 정보를 반영합니다.

Depthmap: 사전 훈련된 단안 깊이 추정 모델을 사용하여 이미지의 깊이 맵을 추출하고 이미지의 레이아웃을 대략적으로 캡처하는 방법을 연구합니다.

Intensity: 이 연구에서는 원본 회색조 이미지를 표현으로 도입하여 모델이 얽혀 있지 않은 색상의 자유도를 다루는 방법을 배우도록 합니다. 임의성을 도입하기 위해 사전 정의된 RGB 채널 가중치 세트에서 균일하게 샘플링하여 회색조 이미지를 생성합니다.

Masking: Composer가 이미지 생성 또는 작업을 편집 가능한 영역으로 제한할 수 있도록 이미지 마스킹 도입을 연구합니다. 4채널 표현이 사용됩니다. 여기서 처음 3개 채널은 마스크된 RGB 이미지에 해당하고 마지막 채널은 바이너리 마스크에 해당합니다.

본 글에서는 위 8가지 조건을 사용해 실험을 진행했지만, Composer를 이용하면 사용자가 자유롭게 조건을 커스터마이징할 수 있다는 점을 참고하세요.

Composition

확산 모델을 사용하여 일련의 표현에서 이미지를 재결합하는 방법을 연구합니다. 특히, 이 연구에서는 GLIDE 아키텍처를 활용하고 튜닝 모듈을 수정합니다. 이 연구에서는 표현을 기반으로 모델을 조정하는 두 가지 메커니즘을 탐구합니다.

전역 조건화: CLIP 문장 임베딩, 이미지 임베딩, 색상 팔레트를 포함한 전역 표현의 경우 이를 투영하고 시간 단계 임베딩에 추가합니다. 또한 이미지 임베딩과 색상 팔레트를 8개의 추가 토큰에 투영하고 이를 CLIP 단어 임베딩과 연결합니다. 그런 다음 unCLIP과 유사하게 GLIDE에서 교차 주의를 위한 컨텍스트로 사용됩니다. 조건은 추가적이거나 교차 어텐션에서 선택적으로 마스킹될 수 있으므로 훈련 및 추론 중에 조건을 직접 삭제하거나 새로운 전역 조건을 도입할 수 있습니다.

지역화 조건화: 스케치, 분할 마스크, 깊이 맵, 강도 이미지 및 마스크 이미지를 포함한 지역화된 표현의 경우 쌓인 컨볼루셔널 레이어를 사용하여 x_t 차원에 포함된 노이즈 잠재력과 동일한 공간 크기를 가진 평균으로 투영합니다. . 그런 다음 이러한 임베딩의 합계가 계산되고 결과가 x_t에 연결된 다음 UNet에 공급됩니다. 임베딩은 추가적이므로 누락된 조건을 조정하거나 새로운 지역화된 조건을 통합하는 것이 쉽습니다.

공동 훈련 전략: 모델이 다양한 조건 조합에서 이미지를 디코딩하는 방법을 학습할 수 있도록 하는 공동 훈련 전략을 설계하는 것이 중요합니다. 본 연구에서는 여러 가지 구성을 실험하여 각 조건에 대해 독립적인 종료 확률 0.5, 모든 조건을 제거하는 확률 0.1, 모든 조건을 유지하는 확률 0.1을 사용하는 간단하면서도 효과적인 구성을 식별했습니다. 강도 이미지에는 이미지에 대한 대부분의 정보가 포함되어 있고 훈련 중에 다른 조건을 약화시킬 수 있으므로 특수 드롭아웃 확률 0.7이 사용됩니다.

기본 확산 모델은 64 × 64 해상도 이미지를 생성합니다. 고해상도 이미지를 생성하기 위해 연구에서는 업샘플링을 위한 두 가지 무조건 확산 모델을 훈련했습니다. 각각 이미지를 64×64에서 256×256으로, 256×256에서 1024×1024 해상도로 업샘플링했습니다. 업샘플링 모델의 아키텍처는 저해상도 레이어에서 더 많은 채널 사용을 연구하고 용량 확장을 위해 self-attention 블록을 도입하는 unCLIP에서 수정되었습니다. 자막에서 이미지 임베딩을 생성하는 선택적 이전 모델도 도입되었습니다. 경험적으로 이전 모델은 특정 조건 조합에서 생성된 이미지의 다양성을 향상시킬 수 있습니다.

Experimentation

Variation: Composer를 사용하면 주어진 이미지와 유사하지만 표현의 특정 하위 집합에 대한 조건을 통해 어떤 면에서 다소 다른 새로운 이미지를 생성할 수 있습니다. 다양한 표현의 조합을 신중하게 선택하면 이미지 변경 범위를 유연하게 제어할 수 있습니다(그림 2a). 연구에서 제시된 방법은 더 많은 조건을 통합한 후 이미지 임베딩에 대해서만 조건을 지정하는 unCLIP의 변형을 생성합니다. Composer를 사용하면 주어진 이미지와 유사한 새로운 이미지를 생성할 수 있지만 해당 이미지의 특정 하위 집합을 조건으로 하여 생성할 수 있습니다. 반영은 어떤 면에서는 다릅니다. 다양한 표현의 조합을 신중하게 선택하면 이미지 변경 범위를 유연하게 제어할 수 있습니다(그림 2a). 제안된 방법은 더 많은 조건을 통합한 후 이미지 임베딩에만 조건을 적용한 unCLIP보다 더 높은 재구성 정확도를 달성합니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

위 내용은 AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1658

Cakephp 튜토리얼

1415

라라벨 튜토리얼

1309

PHP 튜토리얼

1257

C# 튜토리얼

1231

Related knowledge

비트 코인의 가치는 얼마입니까? Apr 28, 2025 pm 07:42 PM

비트 코인의 가격은 $ 20,000에서 $ 30,000입니다. 1. Bitcoin의 가격은 2009 년 이후 극적으로 변동하여 2017 년에 거의 20,000 달러에 이르렀으며 2021 년에는 거의 60,000 달러에 달합니다. 가격은 시장 수요, 공급 및 거시 경제 환경과 같은 요인의 영향을받습니다. 3. 거래소, 모바일 앱 및 웹 사이트를 통해 실시간 가격을 얻으십시오. 4. 비트 코인 가격은 시장 감정과 외부 요인에 의해 유발되는 변동성이 높습니다. 5. 전통적인 금융 시장과의 특정 관계가 있으며 글로벌 주식 시장, 미국 달러의 강점 등의 영향을받습니다. 6. 장기 추세는 낙관적이지만, 위험은주의해서 평가되어야합니다.

세계 10 대 통화 거래 플랫폼 중 2025 년 상위 10 개 통화 거래 플랫폼 중 하나 Apr 28, 2025 pm 08:12 PM

2025 년 전 세계의 상위 10 개 암호 화폐 교환에는 Binance, Okx, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex 및 Poloniex가 포함됩니다.

세계의 상위 10 개 통화 거래 플랫폼 중 상위 10 개 통화 거래 플랫폼의 최신 버전 Apr 28, 2025 pm 08:09 PM

전 세계의 상위 10 개 암호 화폐 거래 플랫폼에는 Binance, OKX, Gate.io, Coinbase, Kraken, Huobi Global, Bitfinex, Bittrex, Kucoin 및 Poloniex가 포함되며 다양한 거래 방법과 강력한 보안 조치가 제공됩니다.

상위 10 개의 가상 통화 거래 앱은 무엇입니까? 최신 디지털 환전 순위 Apr 28, 2025 pm 08:03 PM

Binance, Okx, Gate.io와 같은 상위 10 개 디지털 환전 거래소는 시스템, 효율적인 다양한 거래 및 엄격한 보안 조치를 개선했습니다.

암호 해독 게이트.IO 전략 업그레이드 : Memebox 2.0에서 암호화 자산 관리를 재정의하는 방법? Apr 28, 2025 pm 03:33 PM

Memebox 2.0은 혁신적인 아키텍처 및 성능 혁신을 통해 암호화 자산 관리를 재정의합니다. 1) 자산 사일로, 소득 부패 및 보안 및 편의의 역설의 세 가지 주요 고통 지점을 해결합니다. 2) 지능형 자산 허브, 동적 위험 관리 및 반환 향상 엔진을 통해 크로스 체인 전송 속도, 평균 수율 및 보안 사고 응답 속도가 향상됩니다. 3) 사용자 가치 재구성을 실현하여 자산 시각화, 정책 자동화 및 거버넌스 통합을 사용자에게 제공합니다. 4) 생태 협력 및 규정 준수 혁신을 통해 플랫폼의 전반적인 효과가 향상되었습니다. 5) 앞으로, 스마트 계약 보험 풀, 예측 시장 통합 및 AI 중심 자산 할당이 시작되어 업계의 발전을 계속 이끌 것입니다.

신뢰할 수있는 디지털 통화 거래 플랫폼. 세계 10 대 디지털 환전. 2025 Apr 28, 2025 pm 04:30 PM

권장 신뢰할 수있는 디지털 통화 거래 플랫폼 : 1. OKX, 2. BINANCE, 3. COINBASE, 4. KRAKEN, 5. HUOBI, 6. KUCOIN, 7. BITFINEX, 8. GEMINI, 9. BITSTAMP, 10. POLONIEX, 이러한 플랫폼, 사용자 경험 및 다양한 기능, 다양한 수준의 사용자에게 적합합니다.

최고 통화 거래 플랫폼은 무엇입니까? 상위 10 개 최신 가상 화폐 거래소 Apr 28, 2025 pm 08:06 PM

현재 10 개의 가상 환전 거래소 중 하나입니다. 1. Binance, 2. OKX, 3. Gate.io, 4. Coin Library, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Bitcoin, 10. 비트 스탬프.

C에서 Chrono 라이브러리를 사용하는 방법? Apr 28, 2025 pm 10:18 PM

C에서 Chrono 라이브러리를 사용하면 시간과 시간 간격을보다 정확하게 제어 할 수 있습니다. 이 도서관의 매력을 탐구합시다. C의 크로노 라이브러리는 표준 라이브러리의 일부로 시간과 시간 간격을 다루는 현대적인 방법을 제공합니다. 시간과 C 시간으로 고통받는 프로그래머에게는 Chrono가 의심 할 여지없이 혜택입니다. 코드의 가독성과 유지 가능성을 향상시킬뿐만 아니라 더 높은 정확도와 유연성을 제공합니다. 기본부터 시작합시다. Chrono 라이브러리에는 주로 다음 주요 구성 요소가 포함됩니다. std :: Chrono :: System_Clock : 현재 시간을 얻는 데 사용되는 시스템 클럭을 나타냅니다. STD :: 크론

See all articles

AI 페인팅을 위한 새로운 아이디어: 50억 개의 매개변수를 갖춘 국내 오픈소스 신모델, 합성 제어성 및 품질의 도약 달성

Method

Experimentation

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제