목차
방법 소개
효과 표시
기술 주변기기 일체 포함 단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

Apr 12, 2023 pm 03:46 PM
ai 모델

최근에는 텍스트 대 이미지 모델이 인기 있는 연구 방향이 되었습니다. 넓은 자연 풍경이든 새로운 장면 이미지이든 간단한 텍스트 설명을 사용하여 자동으로 생성할 수 있습니다.

그중에서도 야생적이고 상상적인 장면을 렌더링하는 것은 특정 테마(사물, 동물 등)의 인스턴스를 새로운 장면에서 합성하여 자연스럽고 매끄럽게 장면에 혼합해야 하는 어려운 작업입니다.

일부 대규모 텍스트-이미지 모델은 자연어로 작성된 텍스트 프롬프트를 기반으로 고품질의 다양한 이미지 합성을 달성합니다. 이러한 모델의 가장 큰 장점은 "개"라는 단어를 이미지에서 다양한 자세로 나타날 수 있는 개의 다양한 인스턴스와 연관시키는 것과 같이 수많은 이미지-텍스트 설명 쌍에서 학습된 강력한 의미론적 사전 지식입니다.

이러한 모델의 합성 기능은 전례가 없지만 주어진 참조 피사체를 모방하고 동일한 피사체이지만 다른 장면에서 다른 사례로 새로운 이미지를 합성하는 능력이 부족합니다. 기존 모델의 출력 영역 표현 능력이 제한되어 있음을 알 수 있다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

이 문제를 해결하기 위해 Google과 Boston University의 연구진은 사용자의 특정 이미지 생성 요구 사항에 적응할 수 있는 "개인화된" 텍스트-이미지 확산 모델 DreamBooth를 제안했습니다.

논문 주소: https://arxiv.org/pdf/2208.12242.pdf

프로젝트 주소: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

연구의 목표는 모델의 언어-시각적 사전을 확장하여 사용자가 생성하려는 특정 주제에 새로운 어휘를 연결하는 것입니다. 새 사전이 모델에 내장되면 이러한 단어를 사용하여 특정 주제에 대한 새롭고 현실적인 이미지를 합성하는 동시에 아래 그림 1과 같이 주요 식별 기능을 유지하면서 다양한 장면에서 이미지를 맥락화할 수 있습니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

구체적으로 연구에서는 특정 주제의 이미지를 모델의 출력 도메인에 이식하여 고유 식별자를 사용하여 합성할 수 있도록 했습니다. 이를 위해 연구에서는 희귀한 토큰 식별자를 사용하여 특정 주제를 표현하고 텍스트 이미지에서 저해상도를 생성하는 두 단계로 작동하는 사전 훈련된 확산 기반 텍스트-이미지 프레임워크를 미세 조정하는 방법을 제안합니다. , 초고해상도(SR) 확산 모델을 적용합니다.

먼저 연구에서는 입력 이미지와 고유 식별자("A [V] 개"와 같은 주제 클래스 이름 포함)가 포함된 텍스트 힌트를 사용하여 저해상도 텍스트-이미지 모델을 미세 조정했습니다. 모델이 특정 인스턴스에 클래스 이름을 과적합하고 의미론적 표류를 방지하기 위해 이 연구에서는 모델에 포함된 클래스의 사전 의미를 활용하여 모델이 다른 인스턴스를 생성하도록 장려하는 자체 생성 클래스별 사전 보존 손실을 제안합니다. 특정 주제에 대해 동일한 수업을 진행합니다.

두 번째 단계에서 연구에서는 입력 이미지의 저해상도 및 고해상도 버전을 사용하여 초해상도 구성 요소를 미세 조정합니다. 이를 통해 모델은 장면 주제의 작지만 중요한 세부 사항에 대해 높은 충실도를 유지할 수 있습니다.

본 연구에서 제안한 구체적인 방법을 살펴보겠습니다.

방법 소개

텍스트 설명 없이 3~5개의 캡처된 이미지가 주어지면 이 문서는 세부 충실도가 높고 텍스트 단서에 따라 변경되는 새로운 이미지를 생성하는 것을 목표로 합니다. 본 연구에서는 입력 이미지에 어떠한 제한도 두지 않으며, 대상 이미지는 서로 다른 맥락을 가질 수 있습니다. 방법은 그림 3에 나와 있습니다. 출력 이미지는 피사체의 위치 등 원본 이미지를 수정하고, 색상, 모양 등 피사체의 속성을 변경하고, 피사체의 자세, 표정, 재질, 기타 의미적 변형을 수정할 수 있습니다.

더 구체적으로 이 메서드는 대상(예: 특정 개)의 일부 이미지(보통 3~5개 이미지)와 해당 클래스 이름(예: 개 카테고리)을 입력으로 사용하고 미세 조정된 결과를 반환합니다. / 주제를 참조하는 고유 식별자를 인코딩하는 개인화된 텍스트-이미지 모델. 그런 다음 추론하는 동안 고유 식별자를 다양한 문장에 삽입하여 다양한 맥락의 주제를 종합할 수 있습니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

연구의 첫 번째 작업은 주제 인스턴스를 모델의 출력 도메인에 이식하고 주제를 고유 식별자로 바인딩하는 것입니다. 본 연구에서는 모델의 미세 조정 과정을 감독하는 새로운 방법과 함께 식별자를 설계하는 방법을 제안합니다.

이미지 과적합과 언어 표류 문제를 해결하기 위해 본 연구에서는 확산 모델이 대상과 동일한 클래스의 다른 인스턴스를 지속적으로 생성하도록 장려하여 모델 과적합을 완화하는 손실(사전 보존 손실)도 제안합니다. 통합 및 언어 표류와 같은 문제.

이미지 세부 정보를 보존하려면 모델의 초해상도(SR) 구성 요소를 미세 조정해야 한다는 연구 결과가 나왔습니다. 이 기사는 사전 훈련된 Imagen 모델을 기반으로 완성되었습니다. 구체적인 프로세스는 그림 4에 나와 있습니다. 동일한 주제에 대한 3~5개의 이미지가 주어지면 텍스트-이미지 확산 모델이 두 단계로 미세 조정됩니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

희귀 토큰 식별자는 topic

연구에서는 주제의 모든 입력 이미지를 "[식별자] [클래스 명사]"로 표시합니다. 여기서 [식별자]는 주제에 연결된 고유 식별자이고 [클래스 명사]는 대략적인 클래스 설명입니다. 주제(예: 고양이, 개, 시계 등) 본 연구에서는 클래스 이전 항목을 주제와 연관시키기 위해 문장에서 클래스 설명자를 구체적으로 사용합니다.

효과 표시

다음은 Dreambooth의 안정적인 확산 구현입니다(프로젝트 링크 참조). 질적 결과: 훈련 이미지는 "Textual Inversion" 라이브러리에서 가져옵니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

훈련이 완료된 후 "sks 컨테이너 사진" 프롬프트에서 모델에 의해 생성된 컨테이너 사진은 다음과 같습니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

프롬프트에서 "해변에 있는 sks 컨테이너 사진" 위치를 추가하면 컨테이너가 해변에 나타납니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

녹색 컨테이너의 색상이 너무 단순합니다. 빨간색을 추가하려면 "빨간색 sks 컨테이너 사진" 프롬프트를 입력하세요. 얻을 수 있습니다:

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

강아지를 상자에 앉히려면 "sks 컨테이너 위에 있는 개" 프롬프트를 입력하세요.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

다음은 논문에 나온 일부 결과입니다. 다양한 아티스트 스타일로 개에 대한 예술적인 그림을 생성하세요:

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

이 연구는 입력 이미지에 나타나지 않는 다양한 표현도 합성할 수 있어 모델의 외삽 능력을 입증합니다.

단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.

자세한 내용은 원본 논문을 참조하세요.

위 내용은 단 3개의 샘플과 문장만으로 AI는 사실적인 이미지를 맞춤 설정할 수 있습니다. Google은 매우 새로운 확산 모델을 사용하고 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Centos Shutdown 명령 줄 Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos에서 Gitlab의 백업 방법은 무엇입니까? Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos HDFS 구성을 확인하는 방법 Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Centos 설치 MySQL Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Docker 원리에 대한 자세한 설명 Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

CentOS8은 ssh를 다시 시작합니다 CentOS8은 ssh를 다시 시작합니다 Apr 14, 2025 pm 09:00 PM

SSH 서비스를 다시 시작하라는 명령은 SystemCTL SSHD를 다시 시작합니다. 자세한 단계 : 1. 터미널에 액세스하고 서버에 연결; 2. 명령을 입력하십시오 : SystemCTL SSHD 재시작; 3. 서비스 상태를 확인하십시오 : SystemCTL 상태 SSHD.

Centos에서 Pytorch의 분산 교육을 운영하는 방법 Centos에서 Pytorch의 분산 교육을 운영하는 방법 Apr 14, 2025 pm 06:36 PM

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

See all articles