InstantID의 원래 팀은 InstantStyle이라는 새로운 스타일 마이그레이션 방법을 출시했습니다.
스타일화된 이미지 생성을 스타일 전송이라고도 하며, 그 목표는 참조 이미지와 스타일이 일치하고 원본 이미지 콘텐츠와 일치하는 이미지를 생성하는 것입니다. 이 기술은 동일한 스타일 데이터의 일괄 학습을 위한 확산 방법(예: LoRA)을 기반으로 하며 새로운 스타일로 마이그레이션할 수 없습니다. 또는 반전 작업(예: StyleAlign)을 기반으로 스타일 이미지를 잠재 노이즈로 복원하여 순방향 전파로 얻은 K 및 V를 사용하여 생성 시 스타일 이미지를 대체합니다. 이 방법은 반전 연산으로 인해 생성 스타일이 저하되는 경우가 많습니다.
최근 InstantID의 원래 팀은 InstantStyle이라는 새로운 스타일 마이그레이션 방법을 출시했습니다. Face ID와 달리 참조 이미지에서 스타일과 콘텐츠를 효과적으로 분리하기 위해 간단하지만 매우 효과적인 두 가지 기술을 사용하는 일반적인 이미지 스타일 주입 프레임워크입니다. 이 방법은 참조 이미지에서 스타일과 내용을 효과적으로 분리하여 스타일과 내용을 효과적으로 융합할 수 있는 간단하지만 매우 효과적인 기술을 제공합니다.
Paper: InstantStyle: 텍스트-이미지 생성에서 스타일 보존을 위한 무료 점심
Paper 주소: https://huggingface.co/papers/2404.02733
프로젝트 홈페이지: https //instantstyle.github.io/
코드 링크: https://github.com/InstantStyle/InstantStyle
데모 주소: https://huggingface.co/spaces/InstantX/InstantStyle
자동 도입 동기로는 (1) 우선 스타일이 정의되지 않고, 이를 정의할 명확한 기준이 없으며 심지어 색상, 분위기, 소재, 레이아웃 등 많은 요소가 포함됩니다. (2) 반전을 기반으로 한 이전 방법은 텍스처와 같은 일부 스타일에 허용되지 않는 명백한 스타일 저하를 생성합니다. (3) 이미지 스타일을 주입할 때; , 가장 중요한 문제는 스타일 주입의 강도와 참조 이미지의 내용 유출의 균형을 어떻게 맞추느냐 하는 것입니다.
저자 팀은 일련의 실험 분석을 통해 IP-Adapter의 문제가 다른 여러 방법에 의해 명백히 과장되었음을 발견했습니다. 기능 주입. 논문에서 주장한 콘텐츠 유출 문제. 그럼에도 불구하고 IP 어댑터가 균형을 유지하기 위한 적절한 임계값을 찾는 것이 여전히 어려운 경우도 있습니다. 현재 Adapter 기반 방법은 일반적으로 CLIP을 사용하여 이미지 특징을 추출하므로 저자는 CLIP 특징 공간에서 이미지와 텍스트의 특징을 추가하고 뺄 수 있음을 이미지 검색의 예를 통해 확인했습니다. 네트워크에 삽입하기 전에 기능을 표시하려면 유출될 수 있는 콘텐츠 정보를 빼서 이미지 기능에서 콘텐츠와 스타일을 분리하는 방법은 무엇입니까?
마지막으로 저자는 B-LoRA 방식에서 영감을 받아 각 레이어에서 IP-Adapter 주입 효과를 주의 깊게 분석한 결과, 스타일과 공간 레이아웃 정보에 각각 반응하는 두 개의 독립된 레이어가 있다는 사실에 놀랐습니다. 이를 위해 저자는 제안한 방법을 소개한다.
방법 소개
위의 관찰과 실험을 바탕으로 저자는 그림과 같이 InstantStyle 방법을 제안했습니다. 이 방법의 핵심은 두 가지 모듈로 구성됩니다.
(1) 특징 추출: 사용 CLIP 유휴 기능, 기능 빼기를 명시적으로 수행하고, 이미지 기능의 콘텐츠 정보를 제거하고, 참조 이미지 콘텐츠가 생성된 이미지에 미치는 영향을 줄입니다. 스타일의 과소결정에 비해 콘텐츠 정보는 단순히 텍스트를 통해 설명하기 쉬운 경우가 많으므로 CLIP의 텍스트 인코더를 사용하여 콘텐츠 특징을 추출하여 디커플링할 수 있습니다.
(2) 스타일 레이어 주입만: 기능 주입은 특정 스타일 레이어에서만 완료되어 암시적으로 스타일과 콘텐츠의 분리를 달성합니다. UNet의 중간 블록 근처에서 저자는 스타일과 공간 레이아웃을 각각 제어하는 두 개의 특정 레이어를 발견했으며 일부 스타일에서는 공간 레이아웃도 스타일 유형일 수 있음을 발견했습니다.
전반적으로 InstantStyle의 아이디어는 매우 간단하고 이해하기 쉽습니다. 단 몇 줄의 코드만으로 스타일 마이그레이션에서 가장 골치 아픈 콘텐츠 누출 문제를 완화합니다.
실험 결과
저자는 기사에서 두 가지 전략의 생성 결과를 보여줍니다. 이 두 가지 전략은 특정 모델에 국한되지 않고 별도로, 독립적으로 사용할 수 있으며 둘 다 우수한 결과를 얻습니다.
특징 빼기 결과:
스타일 레이어 삽입만:
현재 선행 방법과 비교:
원본 이미지를 기반으로 한 스타일 지정:
커뮤니티 게임플레이
InstantStyle이 제공되었습니다. Wenshengtu, Tushengtu 및 Inpainting을 포함하여 GitHub를 통해 직접 풍부한 코드 구현을 찾을 수 있습니다. 최근에는 영상제작 프로젝트 AnyV2V에서 추천하는 스타일화 도구로도 활용되고 있습니다. 커뮤니티 사용자의 경우 InstantStyle은 기본적으로 ComfyUI도 지원하며(이 노드의 작성자는 InstantStyle의 공동 작성자이기도 함) 사용자는 IP 어댑터 노드를 업데이트하여 빠르게 사용해 볼 수 있습니다.
InstantID의 작성자로서 왜 InstantID와 공동 브랜드가 아닌가? 텍스트를 통해 생성된 스타일만 제어하는 InstantID에 비해 InstantStyle은 의심할 여지 없이 스타일을 더욱 다양하게 만들 수 있습니다. 저자 팀은 GitHub 별이 1,000개에 도달한 후 얼굴 스타일화 기능을 공식적으로 지원할 예정입니다.
저자는 Huggingface Demo를 공식적으로 지원하며 온라인에서도 체험해 볼 수 있습니다.
위 내용은 한때 인기가 있었던 InstantID에는 오픈 소스인 스타일화된 이미지 생성이라는 새로운 플레이 방법이 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!