Google StyleDrop이 나오자마자 즉시 인터넷에 퍼졌습니다.
반 고흐의 별이 빛나는 밤에 AI는 마스터 반 고흐가 되어 이 추상적 스타일에 대한 최고 수준의 이해를 바탕으로 수많은 유사한 그림을 만듭니다.
또 다른 만화 스타일인데, 제가 그리고 싶은 사물이 훨씬 귀엽네요.
심지어 디테일을 정확하게 제어하고 독창적인 스타일의 로고를 디자인할 수 있습니다.
스타일드롭의 매력은 참고용 사진 한 장만 있으면 아무리 복잡한 예술적 스타일이라도 해체하고 재창조할 수 있다는 점입니다.
네티즌들은 디자이너를 없애는 일종의 AI 도구라고 하더군요.
StyleDrop 뜨거운 연구는 Google 연구팀의 최신 제품입니다.
문서 주소: https://arxiv.org/pdf/2306.00983.pdf
이제 StyleDrop과 같은 도구를 사용하면 더 효과적으로 그림을 그릴 수 있을 뿐만 아니라 이전 로고 그리기 등 상상할 수 없을 정도로 세밀한 작업.
NVIDIA 과학자들조차 이를 "경이로운" 성과라고 불렀습니다.
논문의 저자는 StyleDrop의 영감이 Eyedropper(색상 흡수/색상 선택 도구)에서 나왔다고 소개했습니다.
마찬가지로 StyleDrop은 모든 사람이 단일/몇 개의 참조 이미지에서 스타일을 빠르고 쉽게 "선택"하여 해당 스타일의 이미지를 생성할 수 있기를 바랍니다.
나무늘보는 18가지 스타일을 가질 수 있습니다.
팬더는 24가지 스타일을 가질 수 있습니다.
어린이가 그린 수채화 그림, 스타일 드롭 완벽한 컨트롤, 종이의 주름도 복원되었습니다.
너무 강하다고 말하고 싶습니다.
다양한 스타일을 기반으로 한 StyleDrop의 영어 글자 디자인도 있습니다.
역시 반 고흐 스타일의 글자입니다.
선화도 있어요. 선화는 매우 추상적인 이미지이며 그림 구성에 있어서 매우 높은 합리성을 요구합니다. 과거의 방법은 성공하기 어려웠습니다.
원본 사진의 치즈 그림자의 획이 각 사진의 개체로 복원됩니다.
안드로이드 로고 생성을 참고하세요.
또한 연구원들은 StyleDrop의 기능을 확장하여 DreamBooth와 결합하여 스타일을 사용자 정의할 수 있을 뿐만 아니라 콘텐츠를 사용자 정의할 수도 있습니다.
예를 들어 여전히 반 고흐 스타일로 작은 코기에 대해 비슷한 스타일의 그림을 생성합니다.
여기 또 다른 코기가 있습니다. 아래의 코기는 이집트 피라미드의 "스핑크스"처럼 보입니다. .
StyleDrop은 Muse를 기반으로 하며 두 가지 주요 부분으로 구성됩니다.
하나는 생성된 시각적 변환기의 매개변수를 효과적으로 미세 조정하는 것이고, 다른 하나는 피드백을 통한 반복 훈련입니다.
이후 연구원들은 미세 조정된 두 모델의 이미지를 합성했습니다.
Muse는 마스크 생성 이미지 변환기를 기반으로 하는 최신 텍스트-이미지 합성 모델입니다. 여기에는 기본 이미지 생성(256 × 256) 및 초해상도(512 × 512 또는 1024 × 1024)를 위한 두 개의 합성 모듈이 포함되어 있습니다.
각 모듈은 텍스트 인코더 T, 변환기 G, 샘플러 S, 이미지 인코더 E 및 디코더 D로 구성됩니다.
T는 텍스트 프롬프트 t∈T를 연속 임베딩 공간 E에 매핑합니다. G는 텍스트 임베딩 e ∈ E를 처리하여 시각적 토큰 시퀀스 l ∈ L의 로그를 생성합니다. S는 텍스트 임베딩 e와 이전 단계에서 디코딩된 시각적 토큰을 조건으로 여러 단계의 변환기 추론을 실행하는 반복적 디코딩을 통해 로그에서 시각적 토큰 시퀀스 v ∈ V를 추출합니다.
마지막으로 D는 개별 토큰 시퀀스를 픽셀 공간 I에 매핑합니다. 요약하자면, 텍스트 프롬프트 t가 주어지면 이미지 I의 합성은 다음과 같습니다.
그림 2는 매개변수 효율성 트림(PEFT)을 지원하도록 부분적으로 수정된 Muse 변환기 레이어의 단순화된 아키텍처입니다. 어댑터로.
L 레이어의 변환기를 사용하여 텍스트 임베딩 조건에서 녹색으로 표시된 시각적 토큰 시퀀스를 처리합니다. e. 학습된 매개변수 θ는 어댑터 튜닝을 위한 가중치를 구성하는 데 사용됩니다.
θ를 훈련시키기 위해 많은 경우 연구자들은 스타일 참고용으로 사진만 제공할 수 있습니다.
연구원은 텍스트 프롬프트를 수동으로 첨부해야 합니다. 그들은 내용에 대한 설명과 설명 스타일 문구로 구성된 텍스트 프롬프트를 구성하는 간단한 템플릿 접근 방식을 제안했습니다.
예를 들어, 연구원은 표 1의 개체를 설명하기 위해 "고양이"를 사용하고 스타일 설명으로 "수채화 그림"을 추가합니다.
텍스트 프롬프트에 콘텐츠와 스타일에 대한 설명을 포함하는 것은 연구자의 주요 목표인 스타일과 콘텐츠를 분리하는 데 도움이 되므로 매우 중요합니다.
그림 3은 피드백을 통한 반복 학습을 보여줍니다.
단일 스타일 참조 이미지(주황색 상자)를 학습할 때 StyleDrop에서 생성된 일부 이미지에는 스타일 참조 이미지(빨간색 상자, 이미지 배경에 스타일 이미지와 유사한 내용이 포함되어 있음)에서 추출된 콘텐츠가 표시될 수 있습니다.
다른 이미지(파란색 상자)는 콘텐츠와 스타일을 더 잘 구분합니다. 좋은 샘플(파란색 상자)에 대해 StyleDrop을 반복적으로 훈련하면 스타일과 텍스트 충실도(녹색 상자) 사이의 균형이 더 좋아집니다.
여기서 연구원들은 두 가지 방법도 사용했습니다.
-CLIP 점수
이 방법은 이미지와 텍스트의 정렬을 측정하는 데 사용됩니다. 따라서 CLIP 점수(즉, 시각적 및 텍스트적 CLIP 임베딩의 코사인 유사성)를 측정하여 생성된 이미지의 품질을 평가할 수 있습니다.
연구원은 가장 높은 점수를 받은 CLIP 이미지를 선택할 수 있습니다. 그들은 이 방법을 CLIP 피드백 반복 훈련(CF)이라고 부릅니다.
실험에서 연구원들은 CLIP 점수를 사용하여 합성 이미지의 품질을 평가하는 것이 스타일 충실도를 과도하게 손실하지 않고 회상(예: 텍스트 충실도)을 향상시키는 효과적인 방법이라는 것을 발견했습니다.
반면에 CLIP 점수는 인간의 의도와 완전히 일치하지 않을 수도 있고 미묘한 문체 특성을 포착하지 못할 수도 있습니다.
-HF
인간 피드백(HF)은 사용자 의도를 합성 이미지 품질 평가에 직접 주입하는 보다 직접적인 방법입니다.
강화 학습을 위한 LLM 미세 조정에서 HF는 그 강력함과 효율성을 입증했습니다.
HF는 CLIP 악보가 미묘한 스타일 속성을 포착할 수 없는 점을 보완하는 데 사용될 수 있습니다.
현재 다양한 개인 스타일이 포함된 이미지를 합성하기 위한 텍스트-이미지 확산 모델의 개인화 문제에 많은 연구가 집중되어 있습니다.
연구원들은 DreamBooth와 StyleDrop을 간단한 방법으로 결합하여 스타일과 콘텐츠를 모두 개인화할 수 있는 방법을 보여줍니다.
이 작업은 스타일의 경우 θs, 콘텐츠의 경우 θc로 안내되는 두 개의 수정된 생성 분포에서 샘플링하여 수행됩니다. 각각 스타일 및 콘텐츠 참조 이미지에 대해 독립적으로 훈련된 어댑터 매개변수입니다.
기존 제품과 달리 팀의 접근 방식은 여러 개념에 대한 학습 가능한 매개변수의 공동 훈련이 필요하지 않으며, 사전 훈련된 어댑터가 개별 주제와 스타일에 대해 별도로 훈련하기 때문에 더 큰 조합 능력으로 이어집니다.
연구원의 전체 샘플링 프로세스는 방정식 (1)의 반복적 디코딩을 따르며 각 디코딩 단계에서 로그를 샘플링하는 다른 방법이 있습니다.
t는 텍스트 프롬프트이고 c는 스타일 설명자가 없는 텍스트 프롬프트입니다. 로그는 k 단계에서 다음과 같이 계산됩니다.
여기서: γ는 StyleDrop과 DreamBooth의 균형을 맞추는 데 사용됩니다. γ가 0이면 StyleDrop을 얻고, 1이면 DreamBooth를 얻습니다.
γ를 적절하게 설정하면 적합한 이미지를 얻을 수 있습니다.
실험 설정
지금까지 텍스트-이미지 생성 모델의 스타일 조정에 대한 광범위한 연구는 없습니다.
따라서 연구원들은 새로운 실험 계획을 제안했습니다.
-데이터 수집
연구원들은 수채화 및 유화, 평면 일러스트레이션, 3D 렌더링에서 다양한 재료 조각에 이르기까지 다양한 스타일의 수십 장의 사진을 수집했습니다. .
- 모델 구성
연구원들은 어댑터를 사용하여 Muse 기반 StyleDrop을 조정합니다. 모든 실험에서 Adam 최적화 프로그램은 학습률 0.00003으로 1000단계에 대한 어댑터 가중치를 업데이트하는 데 사용되었습니다. 달리 명시하지 않는 한, 연구원들은 StyleDrop을 사용하여 인간 피드백을 통해 10개 이상의 합성 이미지에 대해 훈련된 2차 모델을 나타냅니다.
-평가
CLIP을 기반으로 한 연구 보고서의 정량적 평가, 스타일 일관성 및 텍스트 정렬 측정. 또한 연구원들은 스타일 일관성과 텍스트 정렬을 평가하기 위해 사용자 선호도 연구를 수행했습니다.
사진과 같이 연구원들이 수집한 다양한 스타일의 사진 18장을 StyleDrop 처리한 결과입니다.
보시다시피 StyleDrop은 다양한 스타일의 질감, 음영 및 구조의 뉘앙스를 포착할 수 있어 이전보다 스타일을 더 잘 제어할 수 있습니다.
연구원들은 비교를 위해 Imagen의 DreamBooth 결과, Stable Diffusion의 DreamBooth LoRA 구현 및 텍스트 반전 결과도 소개했습니다.
구체적인 결과는 이미지-텍스트 정렬(Text)과 시각적 스타일 정렬(Style)의 휴먼 채점(위)과 CLIP 채점(아래)의 평가 지표인 표에 나와 있습니다.
(a) DreamBooth, (b) StyleDrop 및 (c) DreamBooth + StyleDrop의 정성적 비교:
여기서 연구원들은 위에서 언급한 CLIP을 적용했습니다. 두 가지 지표 점수 - 텍스트 및 스타일 점수.
텍스트 점수의 경우 연구원들은 이미지 임베딩과 텍스트 임베딩 간의 코사인 유사성을 측정합니다. 스타일 점수의 경우, 연구원들은 스타일 참조와 합성 이미지 임베딩 간의 코사인 유사성을 측정합니다.
연구원들은 190개의 텍스트 프롬프트에 대해 총 1520개의 이미지를 생성했습니다. 연구원들은 최종 점수가 더 높기를 바랐지만 측정항목은 완벽하지 않습니다.
그리고 반복 학습(IT)을 통해 텍스트 점수가 향상되었는데, 이는 연구원의 목표에 부합합니다.
그러나 그 대가로 합성 이미지에 대한 훈련을 받았기 때문에 1차 모델의 스타일 점수가 감소하고 선택 편향으로 인해 스타일이 편향될 수 있습니다.
Imagen의 DreamBooth는 스타일 점수에서 StyleDrop보다 열등합니다(HF의 경우 0.644 대 0.694).
연구원들은 Imagen에서 DreamBooth의 스타일 점수 증가가 뚜렷하지 않은 반면(0.569 → 0.644), Muse에서 StyleDrop의 증가는 더 뚜렷하다는 사실을 발견했습니다(0.556 → 0.694).
연구원들은 Imagen보다 Muse의 스타일 미세 조정이 더 효과적이라고 분석했습니다.
또한 세밀한 제어를 위해 StyleDrop은 색상 오프셋, 그라데이션 또는 선명한 각도 제어와 같은 미묘한 스타일 차이를 포착합니다.
디자이너들에게 StyleDrop이 있으면 작업 효율이 10배 빨라질 것입니다. 이는 이미 시작되었습니다.
AI의 어느 날, 지구상에서 10년, AIGC는 빛의 속도, 사람의 눈을 멀게 할 정도의 빛의 속도로 발전하고 있습니다!
도구는 유행을 쫓을 뿐이고, 없어져야 할 것들은 이미 오래 전에 없어졌습니다.
이 도구는 Midjourney보다 로고 제작에 훨씬 사용하기 쉽습니다.
위 내용은 Midjourney의 라이벌이 여기에 있습니다! 구글 스타일드롭 에이스 '커스터마이징 마스터', AI 아트서클 돌풍의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!