확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.-일체 포함-php.cn

제어 가능한 이미지 생성

실험 부분

집

기술 주변기기

일체 포함

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

王林

Apr 12, 2023 pm 09:25 PM

영상 발각

Stable Diffusion의 오픈소스를 통해 이미지 생성을 위한 자연어 사용이 점차 대중화되었으며, AI가 손을 그릴 수 없고, 동작 관계를 이해할 수 없으며, 제어가 어려운 등 AIGC 문제도 많이 노출되었습니다. 물체의 위치 등

주된 이유는 "입력 인터페이스"에는 자연어만 있고 화면을 세밀하게 제어할 수 없기 때문입니다.

최근 위스콘신 대학교 매디슨 캠퍼스, 컬럼비아 대학교 및 Microsoft의 연구 핫스팟은 접지 입력을 기반으로 기존 "사전 훈련된 텍스트에서 이미지 확산 모델"의 기능을 확장하는 새로운 방법인 GLIGEN을 제안했습니다.

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

논문 링크: https://arxiv.org/pdf/2301.07093.pdf

프로젝트 홈페이지: https://gligen.github.io/

체험 링크: https://huggingface.co/spaces/gligen/demo

사전 훈련된 모델에 대한 많은 양의 개념적 지식을 유지하기 위해 연구자들은 모델을 미세 조정하는 것을 선택하지 않았습니다. 하지만 게이팅 메커니즘을 통해 입력을 전달했습니다. 오픈 월드 이미지 생성을 제어하기 위해 다양한 접지 조건이 새로운 훈련 가능한 레이어에 주입됩니다.

현재 GLIGEN은 4개의 입력을 지원합니다.

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

(왼쪽 위) 텍스트 엔터티 + 상자(오른쪽 위) 이미지 엔터티 + 상자

(왼쪽 아래) 이미지 스타일 + 텍스트 + 상자(오른쪽 아래) 텍스트 엔터티 + 키 point

실험 결과 또한 COCO 및 LVIS에 대한 GLIGEN의 제로샷 성능이 현재 감독된 레이아웃-이미지 기준보다 훨씬 우수하다는 것을 보여줍니다.

제어 가능한 이미지 생성

확산 모델 이전에는 생성적 적대 신경망(GAN)이 항상 이미지 생성 분야의 선두주자였으며 잠재 공간과 조건부 입력이 "제어 가능한 작업" 측면에서 완벽하게 구현되었습니다. 그리고 "세대" 연구.

텍스트 조건부 자동 회귀 및 확산 모델은 보다 안정적인 학습 목표와 네트워크 이미지-텍스트 쌍 데이터에 대한 대규모 교육 덕분에 놀라운 이미지 품질과 개념 적용 범위를 보여주고 신속하게 원에서 벗어나 지원 도구가 됩니다. 예술 디자인과 창작 분야.

그러나 기존의 대규모 텍스트 이미지 생성 모델은 "텍스트 이외의" 다른 입력 모드를 조건으로 할 수 없습니다. 개념을 정확하게 찾거나 참조 이미지를 사용하여 생성 프로세스를 제어하는 기능이 부족하여 표현이 제한됩니다. 정보.

예를 들어 텍스트를 사용하여 개체의 정확한 위치를 설명하는 것은 어렵지만 경계 상자나 키포인트는 쉽게 얻을 수 있습니다.

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다. inpainting,layout2img 생성 등과 같은 일부 기존 도구는 텍스트 이외의 모달 입력을 활용할 수 있지만 이러한 입력은 제어 가능한 text2img 생성을 위해 거의 결합되지 않습니다.

또한 이전 생성 모델은 일반적으로 작업별 데이터 세트에 대해 독립적으로 훈련되는 반면, 이미지 인식 분야에서는 "대규모 이미지 데이터" 또는 "이미지-텍스트 쌍"에서 학습하는 것이 오랫동안 지속되어 온 패러다임입니다. " 사전 훈련된 기본 모델은 특정 작업에 대한 모델 구축을 시작합니다.

확산 모델은 수십억 개의 이미지-텍스트 쌍에 대해 학습되었습니다. 자연스러운 질문은 다음과 같습니다. 기존의 사전 학습된 확산 모델을 기반으로 새로운 조건부 모델을 제공할 수 있습니까?

사전 훈련된 모델이 보유한 많은 양의 개념 지식으로 인해 기존 텍스트-이미지 생성 모델보다 더 많은 제어성을 확보하면서 다른 생성 작업에서 더 나은 성능을 달성하는 것이 가능할 수 있습니다.

GLIGEN

위의 목적과 아이디어를 기반으로 연구원이 제안한 GLIGEN 모델은 여전히 텍스트 제목을 입력으로 유지하지만 접지 개념의 경계 상자, 접지 참조와 같은 다른 입력 양식도 가능하게 합니다. 이미지와 접지 부분의 핵심입니다.

여기서 중요한 문제는 새로운 접지 정보를 주입하는 방법을 학습하면서 사전 훈련된 모델에 많은 양의 독창적인 개념 지식을 유지하는 것입니다.

연구원들은 지식 망각을 방지하기 위해 원래 모델 가중치를 동결하고 새로운 그루딩 입력을 흡수하기 위해 새로운 훈련 가능한 게이트 변환기 레이어를 추가할 것을 제안했습니다. 다음은 경계 상자를 예로 사용합니다.

명령 입력

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

각 그라우팅 텍스트 엔터티는 왼쪽 위 모서리와 오른쪽 아래 모서리의 좌표 값을 포함하는 경계 상자로 표시됩니다.

기존의layout2img 관련 작업에는 일반적으로 개념 사전이 필요하며 평가 단계에서 밀접하게 설정된 엔터티(예: COCO 카테고리)만 처리할 수 있다는 점에 유의해야 합니다. 연구원들은 텍스트 인코더를 사용하여 이미지 설명을 인코딩한다는 사실을 발견했습니다. 훈련 세트의 위치 정보는 다른 개념으로 일반화될 수 있습니다.

Training data

접지 이미지를 생성하는 데 사용되는 학습 데이터에는 텍스트 c와 접지 엔터티 e가 조건으로 필요합니다. 실제로는 보다 유연하게 고려하면 데이터에 대한 제약을 완화할 수 있습니다. 입력이 필요합니다.

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

데이터에는 크게 세 가지 유형이 있습니다

1. 접지 데이터

각 그림은 전체 그림을 설명하는 제목과 연결됩니다. 제목을 입력하고 경계 상자를 표시합니다.

명사 개체는 자연어 제목에서 직접 가져오기 때문에 더 풍부한 어휘를 다룰 수 있으며 이는 오픈 월드 어휘의 기초 세대에 도움이 됩니다.

2. 탐지 데이터 탐지 데이터

명사 엔터티는 사전 정의된 근접 집합 범주(예: COCO의 80개 개체 범주)이며 분류자에서 빈 제목 토큰을 사용하도록 선택합니다. 제목 그대로 무료 가이드.

기본 데이터(수천 레벨)보다 감지 데이터(수백만 레벨)의 양이 많기 때문에 전체 학습 데이터가 크게 늘어날 수 있습니다.

3. 탐지 및 캡션 데이터

명사 엔터티는 탐지 데이터의 명사 엔터티와 동일하며, 이미지는 텍스트 제목만으로 설명되지만, 명사 엔터티와 엔터티가 있을 수 있습니다. 제목이 완전히 일치하지 않습니다.

예를 들어 제목은 거실에 대한 높은 수준의 설명만 제공하고 장면의 개체는 언급하지 않는 반면, 감지 주석은 더 미세한 개체 수준의 세부 정보를 제공합니다.

Gated attention 메커니즘

연구원들은 기존의 대규모 언어-이미지 생성 모델에 새로운 공간 기반 기능을 제공하는 것을 목표로 합니다. 다양하고 복잡한 언어 명령어를 기반으로 사실적인 이미지를 합성하는 데 필요한 지식을 얻기 위해 네트워크 규모의 이미지 텍스트를 학습합니다. 사전 학습은 비용이 많이 들기 때문에 성능도 좋지만, 새로운 기능을 확장하는 것이 중요합니다. 새로운 기능을 수용하기 위해 시간이 지남에 따라 새 모듈을 조정할 수 있도록 모델 가중치를 적용합니다.

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다. 교육 과정에서 게이팅 메커니즘을 사용하여 새로운 접지 정보가 사전 교육된 모델에 점진적으로 통합됩니다. 이 설계를 통해 생성 과정에서 샘플링 프로세스에 유연성을 제공하여 품질과 제어 가능성을 향상시킬 수 있습니다.

또한 실험을 통해 샘플링 단계 전반부에는 완전한 모델(모든 레이어)을 사용하고 후반부에서는 원래 레이어(게이트 변환기 레이어 없음)만 사용하면 생성된 결과가 더 정확하게 반영될 수 있음이 입증되었습니다. 접지 조건과 동시에 더 높은 이미지 품질을 제공합니다.

실험 부분

오픈 세트 기반 텍스트-이미지 생성 작업에서는 먼저 훈련을 위해 COCO(COCO2014CD)의 기본 주석만 사용하고 GLIGEN이 COCO 카테고리 이외의 기본 엔터티를 생성할 수 있는지 평가합니다.

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

GLIGEN은 "푸른 까마귀", "크로아상"과 같은 새로운 개념이나 "갈색 나무 테이블"과 같은 새로운 개체 속성을 학습할 수 있음을 알 수 있으며, 이 정보는 훈련 카테고리 중간.

연구원들은 이것이 GLIGEN의 Gated Self-Attention이 다음 Cross-Attention 레이어의 제목에서 접지 엔터티에 해당하는 시각적 특징을 재배치하는 방법을 학습했고 두 레이어 공간의 공유 텍스트로 인해 일반화 능력을 얻었기 때문이라고 믿습니다. .

실험에서는 1203개의 롱테일 객체 카테고리가 포함된 LVIS에서 이 모델의 제로샷 생성 성능도 정량적으로 평가했습니다. GLIP을 사용하여 생성된 이미지에서 경계 상자를 예측하고 GLIP 점수라는 AP를 계산하여 이를 레이아웃2img 작업용으로 설계된 최첨단 모델인

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

과 비교합니다. GLIGEN 모델은 COCO 주석에 대해서만 훈련되지만 지도 기준선보다 훨씬 더 나은 성능을 발휘합니다. 아마도 처음부터 훈련된 기준선은 제한된 주석으로 학습하는 데 어려움이 있는 반면 GLIGEN 모델은 사전 훈련된 모델의 방대한 개념 지식을 활용할 수 있기 때문일 것입니다.

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

일반적으로 이 논문은

1 기존 text2img 확산 모델에 새로운 접지 제어 가능성을 제공하는 새로운 text2img 생성 방법을 제안합니다. 사전에 - 새로운 포지셔닝 레이어를 점진적으로 통합하는 학습된 가중치를 통해 이 모델은 개방형 기반 text2img 생성 및 경계 상자 입력을 달성합니다. 즉, 훈련에서 관찰되지 않은 새로운 포지셔닝 개념을 통합합니다.

3. Layout2img 작업의 성능은 이전 최첨단 모델보다 훨씬 향상되었으며, 사전 훈련된 대규모 생성 모델이 다운스트림 작업의 성능을 향상시킬 수 있음을 입증했습니다

위 내용은 확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7569

Cakephp 튜토리얼

1386

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

107

Related knowledge

Windows 11에서 바탕 화면 배경 최근 이미지 기록을 지우는 방법 Apr 14, 2023 pm 01:37 PM

<p>Windows 11에서는 시스템의 개인 설정이 향상되어 사용자가 이전에 바탕 화면 배경을 변경한 최근 기록을 볼 수 있습니다. Windows 시스템 설정 애플리케이션의 개인 설정 섹션에 들어가면 다양한 옵션을 볼 수 있으며, 배경 화면 변경도 그 중 하나입니다. 하지만 이제 시스템에 설정된 배경 화면의 최신 기록을 볼 수 있습니다. 이 내용이 마음에 들지 않고 최근 기록을 지우거나 삭제하려면 이 문서를 계속 읽으십시오. 이 문서는 레지스트리 편집기를 사용하여 이를 수행하는 방법에 대해 자세히 배우는 데 도움이 될 것입니다. </p><h2>레지스트리 편집 사용법

Windows 11로 업그레이드할 수 없는 i7-7700에 대한 솔루션 Dec 26, 2023 pm 06:52 PM

i77700의 성능은 win11을 실행하기에 충분하지만 사용자는 i77700을 win11로 업그레이드할 수 없다는 것을 알게 됩니다. 이는 주로 Microsoft에서 부과한 제한 사항 때문이므로 이 제한 사항을 건너뛰는 한 설치할 수 있습니다. i77700은 win11로 업그레이드할 수 없습니다. 1. Microsoft에서는 CPU 버전을 제한하기 때문입니다. 2. Intel의 8세대 이상 버전만 win11로 직접 업그레이드할 수 있습니다. 3. 7세대인 i77700은 win11의 업그레이드 요구 사항을 충족할 수 없습니다. 4. 하지만 i77700은 성능면에서 win11을 완벽하게 원활하게 사용할 수 있습니다. 5. 따라서 이 사이트의 win11 직접 설치 시스템을 사용할 수 있습니다. 6. 다운로드가 완료되면 파일을 마우스 오른쪽 버튼으로 클릭하고 "로드"합니다. 7. 더블클릭하여 "원클릭"을 실행합니다.

Windows Spotlight 바탕화면 이미지 PC 어떻게 다운로드? Aug 23, 2023 pm 02:06 PM

Windows는 결코 미학을 무시하는 제품이 아닙니다. XP의 목가적인 녹색 들판부터 Windows 11의 푸른 소용돌이 디자인까지, 기본 바탕 화면 배경화면은 수년간 사용자 즐거움의 원천이었습니다. 이제 Windows 추천을 사용하면 매일 잠금 화면과 바탕 화면 배경 무늬에 사용할 아름답고 경외감을 불러일으키는 이미지에 직접 액세스할 수 있습니다. 불행히도 이러한 이미지는 어울리지 않습니다. Windows 스포트라이트 이미지 중 하나가 마음에 든다면 한동안 배경으로 유지할 수 있도록 해당 이미지를 다운로드하는 방법을 알고 싶을 것입니다. 여기에 당신이 알아야 할 모든 것이 있습니다. WindowsSpotlight란 무엇입니까? Window Spotlight는 설정 앱의 개인 설정 &gt에서 사용할 수 있는 자동 배경화면 업데이트 프로그램입니다.

낙상 감지, 골격점 인간 행동 인식을 기반으로 코드의 일부가 Chatgpt로 완성됨 Apr 12, 2023 am 08:19 AM

여러분, 안녕하세요. 오늘 저는 넘어짐 감지 프로젝트를 여러분과 공유하고 싶습니다. 정확하게는 골격점을 기반으로 한 인간의 움직임 인식입니다. 이는 대략 3단계로 나뉩니다: 인체 인식, 인체 골격 지점 동작 분류 프로젝트 소스 코드가 패키지되어 있습니다. 획득 방법은 기사 끝부분을 참조하세요. 0. chatgpt 먼저 모니터링되는 비디오 스트림을 가져와야 합니다. 이 코드는 상대적으로 고정되어 있습니다. chatgpt가 작성한 코드를 chatgpt가 직접 완성하도록 할 수 있으며 문제가 없으며 직접 사용할 수 있습니다. 그러나 나중에 mediapipe를 사용하여 인간의 뼈대 지점을 식별하는 등의 비즈니스 작업에 관해서는 chatgpt에서 제공하는 코드가 올바르지 않습니다. 나는 chatgpt를 비즈니스 로직과 독립적인 도구 상자로 사용할 수 있다고 생각합니다. 이를 C에 넘겨볼 수 있습니다.

Python에서 이미지 의미 분할 기술을 사용하는 방법은 무엇입니까? Jun 06, 2023 am 08:03 AM

인공지능 기술이 지속적으로 발전하면서 이미지 의미분할 기술은 이미지 분석 분야에서 인기 있는 연구 방향이 되었다. 이미지 의미론적 분할에서는 이미지의 다양한 영역을 분할하고 각 영역을 분류하여 이미지에 대한 포괄적인 이해를 얻습니다. Python은 잘 알려진 프로그래밍 언어입니다. 강력한 데이터 분석 및 데이터 시각화 기능으로 인해 인공 지능 기술 연구 분야에서 가장 먼저 선택됩니다. 이 기사에서는 Python에서 이미지 의미 분할 기술을 사용하는 방법을 소개합니다. 1. 전제 지식이 심화되고 있습니다.

MIT의 최신 걸작: GPT-3.5를 사용하여 시계열 이상 탐지 문제 해결 Jun 08, 2024 pm 06:09 PM

오늘은 지난 주 MIT에서 발표한 기사를 소개하고자 합니다. GPT-3.5-turbo를 사용하여 시계열 이상 탐지 문제를 해결하고, 시계열 이상 탐지에서 LLM의 효율성을 초기에 검증한 내용입니다. 전체 과정에 미세한 조정은 없으며, 이상 탐지를 위해 GPT-3.5-turbo를 직접 사용하는 것이 이 글의 핵심이다. LLM이 이상 탐지 작업을 해결하도록 하는 프롬프트 또는 파이프라인입니다. 이 작품을 자세히 소개하겠습니다. 이미지 논문 제목: Large Languagemodelscanbezero-shotanomalydete

iOS 17: 사진에서 원클릭 자르기를 사용하는 방법 Sep 20, 2023 pm 08:45 PM

Apple은 iOS 17 사진 앱을 통해 원하는 대로 사진을 더 쉽게 자를 수 있습니다. 방법을 알아보려면 계속 읽어보세요. 이전 iOS 16에서는 사진 앱에서 이미지를 자르는 데 여러 단계가 필요했습니다. 편집 인터페이스를 탭하고 자르기 도구를 선택한 다음 핀치 투 줌 동작을 사용하거나 자르기 도구의 모서리를 드래그하여 자르기를 조정합니다. iOS 17에서 Apple은 고맙게도 이 프로세스를 단순화하여 사진 라이브러리에서 선택한 사진을 확대하면 화면 오른쪽 상단에 새로운 자르기 버튼이 자동으로 나타납니다. 이를 클릭하면 선택한 확대/축소 수준으로 전체 자르기 인터페이스가 표시되므로 원하는 이미지 부분으로 자르기, 이미지 회전, 이미지 반전, 화면 비율 적용 또는 마커 사용이 가능합니다.

Windows에서 PowerToys를 사용하여 이미지 크기를 일괄 조정하는 방법 Aug 23, 2023 pm 07:49 PM

매일 이미지 파일로 작업해야 하는 사람들은 프로젝트와 작업의 필요에 맞게 크기를 조정해야 하는 경우가 많습니다. 그러나 처리할 이미지가 너무 많으면 개별적으로 크기를 조정하는 데 많은 시간과 노력이 소요될 수 있습니다. 이 경우 PowerToys와 같은 도구는 무엇보다도 이미지 크기 조정 유틸리티를 사용하여 이미지 파일의 크기를 일괄 조정하는 데 유용할 수 있습니다. Image Resizer 설정을 지정하고 PowerToys를 사용하여 이미지 일괄 크기 조정을 시작하는 방법은 다음과 같습니다. PowerToys를 사용하여 이미지 크기를 일괄 조정하는 방법 PowerToys는 일상 작업 속도를 높이는 데 도움이 되는 다양한 유틸리티와 기능을 갖춘 올인원 프로그램입니다. 유틸리티 중 하나는 이미지입니다.

See all articles

확산+표적 검출=제어 가능한 이미지 생성! 중국팀은 물체의 공간적 위치를 완벽하게 제어하기 위해 GLIGEN을 제안했습니다.

제어 가능한 이미지 생성

실험 부분

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제