영상 생성 시 '검열' : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

WBOY
풀어 주다: 2023-06-13 14:26:39
앞으로
1034명이 탐색했습니다.

Stable Diffusion, DALL-E 2 및 Mid-Journey와 같은 텍스트-이미지 확산 생성 모델은 활발한 개발 상태에 있으며 강력한 텍스트-이미지 생성 기능을 갖추고 있지만 "롤오버" 사례는 그것도 가끔.

아래 그림에 표시된 것처럼 "멧돼지 사진"이라는 텍스트 프롬프트가 제공되면 안정 확산 모델은 그에 상응하는 명확하고 사실적인 멧돼지 사진을 생성할 수 있습니다. 그러나 이 텍스트 프롬프트를 약간 수정하여 "멧돼지와 반역자의 사진"으로 변경하면 멧돼지는 어떻습니까? 어떻게 자동차가 되었나요?

영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

다음 몇 가지 예를 살펴보겠습니다. 이들은 어떤 새로운 종인가요?

영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

이 이상한 현상의 원인은 무엇입니까? 이러한 세대 실패 사례는 모두 최근에 출판된 논문 "Stable Diffusion is Unstable"에서 나왔습니다.

본 논문에서는 텍스트-이미지 모델을 위한 그래디언트 기반 적대 알고리즘을 처음으로 제안합니다. 이 알고리즘은 다수의 공격적인 텍스트 프롬프트를 효율적이고 효과적으로 생성할 수 있으며 안정적인 확산 모델의 불안정성을 효과적으로 탐색할 수 있습니다. 이 알고리즘은 짧은 텍스트 프롬프트에서 91.1%, 긴 텍스트 프롬프트에서 81.2%의 공격 성공률을 달성했습니다. 또한 이 알고리즘은 텍스트-이미지 생성 모델의 실패 모드를 연구하기 위한 풍부한 사례를 제공하여 이미지 생성 제어 가능성에 대한 연구의 기반을 마련합니다.

영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

이 알고리즘으로 생성된 수많은 세대 실패 사례를 바탕으로 연구원은 세대 실패의 네 가지 이유를 다음과 같이 요약했습니다.


단어의 모호함

  • 프롬프트 내 단어의 위치
  • 생성 속도의 차이

프롬프트(프롬프트)에 여러 세대 대상이 포함될 때 특정 대상이 나오는 경우가 종종 발생합니다. 생성 중 문제가 진행되는 동안 사라집니다. 이론적으로 동일한 큐 내의 모든 대상은 동일한 초기 노이즈를 공유해야 합니다. 그림 4에서 볼 수 있듯이 연구원들은 고정된 초기 노이즈 조건 하에서 ImageNet에서 1,000개의 카테고리 타겟을 생성했습니다. 그들은 각 대상에서 생성된 마지막 이미지를 참조 이미지로 사용하고 각 시간 단계에서 생성된 이미지와 마지막 단계에서 생성된 이미지 간의 SSIM(구조적 유사성 지수) 점수를 계산하여 다양한 대상의 빌드 속도 차이를 보여주었습니다.

  • 대략적인 특징 유사성
  • 확산 생성 과정에서 연구원들은 두 유형의 타겟 사이에 전역적 또는 지역적 대략적인 특징 유사성이 있을 때 교차 주의가 계산된다는 것을 발견했습니다. 교차주의 문제) 가중치. 이는 두 개의 대상 명사가 동시에 같은 그림의 같은 블록에 집중하여 특징 얽힘을 초래할 수 있기 때문입니다. 예를 들어, 그림 6에서 깃털과 은연어는 거친 입자 특징에서 특정 유사성을 갖고 있으며, 이로 인해 깃털은 은연어를 기반으로 한 생성 프로세스의 8단계에서 생성 작업을 계속 완료할 수 있습니다. 은연어와 마술사 등 얽힘이 없는 두 유형의 대상에 대해 마술사는 은연어를 기반으로 한 중간 단계 이미지에서는 생성 작업을 완료할 수 없습니다.
  • 영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    Polysemy

    이 장에서 연구자들은 단어가 여러 의미를 가질 때 세대 상황을 깊이 탐구합니다. 그들이 발견한 것은 어떤 외부 교란 없이도 결과 이미지가 종종 단어의 특정 의미를 나타낸다는 것입니다. "warthog"를 예로 들어 보겠습니다. 그림 A4의 첫 번째 줄은 "warthog"라는 단어의 의미를 기반으로 생성되었습니다.

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    그러나 연구자들은 원래 프롬프트에 다른 단어가 삽입되면 의미 체계가 바뀔 수 있다는 사실도 발견했습니다. 예를 들어, "멧돼지"를 설명하는 프롬프트에 "배신자"라는 단어가 도입되면 생성된 이미지 콘텐츠는 "멧돼지"의 원래 의미에서 벗어나 완전히 새로운 콘텐츠를 생성할 수 있습니다.

    프롬프트에서 단어의 위치

    그림 10에서 연구원은 흥미로운 현상을 관찰했습니다. 비록 인간의 관점에서 볼 때 다른 순서로 배열된 프롬프트는 일반적으로 동일한 의미를 가지며 모두 고양이, 나막신, 권총의 그림을 설명합니다. 그러나 언어 모델, 즉 CLIP 텍스트 인코더의 경우 단어의 순서가 텍스트를 이해하는 데 어느 정도 영향을 미치고, 이로 인해 생성되는 이미지의 내용이 변경됩니다. 이러한 현상은 우리의 설명이 의미적으로 일관성이 있음에도 불구하고 모델이 단어의 순서가 다르기 때문에 이해와 생성 결과가 다를 수 있음을 보여줍니다. 이는 모델이 언어를 처리하고 의미를 이해하는 방식이 인간과 다르다는 것을 보여줄 뿐만 아니라, 그러한 모델을 설계하고 사용할 때 단어 순서의 영향에 더 많은 주의를 기울여야 함을 상기시켜 줍니다.

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    모델 구조

    는 프롬프트에서 원래 대상 명사를 변경하지 않고 Gumbel Softmax 분포를 학습하여 단어 대체 또는 확장의 이산 프로세스를 계속했습니다. 섭동 생성의 차별성을 보장하고, 이미지 생성 후 CLIP 분류기와 마진 손실을 사용하여 Ω를 최적화하고, CLIP이 올바르게 분류할 수 없는 이미지를 생성하는 것을 목표로 공격 프롬프트와 클린 프롬프트가 일정한 유사성을 갖도록 연구합니다. 추가 단계에서는 의미론적 유사성 제약 조건과 텍스트 유창성 제약 조건이 사용됩니다.

    이 분포가 학습되면 알고리즘은 동일한 깨끗한 텍스트 팁에 대한 공격 효과가 있는 여러 텍스트 팁을 샘플링할 수 있습니다.

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    자세한 내용은 원문을 확인해주세요.

위 내용은 영상 생성 시 '검열' : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿