安定拡散、DALL-E 2、ミッドジャーニーなどのテキストから画像への拡散生成モデルは、精力的に開発されており、強力なテキストから画像への生成機能を備えていますが、"ひっくり返った』というケースもたまに出てきます。
下の図に示すように、「イボイノシシの写真」というテキスト プロンプトが与えられると、安定拡散モデルは、対応する鮮明でリアルなイボイノシシの写真を生成できます。ただし、このテキスト プロンプトを少し修正して、「イボイノシシと裏切り者の写真」に変更すると、イボイノシシはどうなるでしょうか?それはどのようにして車になったのでしょうか?
次のいくつかの例を見てみましょう。これらの新種は何でしょうか?
#これらの奇妙な現象は何が原因で起こるのでしょうか?これらの生成失敗例はすべて、最近出版された論文「安定拡散は不安定である」から来ています。
このアルゴリズムによって生成された多数の生成失敗事例に基づいて、研究者は生成失敗の 4 つの理由を要約しました。
生成速度の違い
大まかな特徴の類似性
拡散生成プロセスにおいて、研究者は、 2 種類のターゲット間にグローバルまたはローカルの粗い特徴の類似性がある場合、クロス アテンションの重みを計算するときに問題が発生します。これは、2 つのターゲット名詞が同じ画像の同じブロックに同時に焦点を合わせ、その結果、特徴量のもつれが生じる可能性があるためです。たとえば、図 6 では、フェザーとシルバー サーモンには粗粒度の特徴において一定の類似点があり、その結果、フェザーはシルバー サーモンに基づく生成プロセスの 8 番目のステップで生成タスクを完了し続けることができます。シルバーサーモンとマジシャンのような絡みのない 2 種類のターゲットの場合、マジシャンはシルバーサーモンに基づく中間ステップ画像で生成タスクを完了できません。
この章では、研究者は、単語が生成されるまでに複数の意味を持つ場合に何が起こるかを詳しく調査します。彼らが発見したのは、外部からの混乱がなければ、結果として得られる画像がその単語の特定の意味を表す場合が多いということでした。 「イボイノシシ」を例にすると、図 A4 の最初の行は「イボイノシシ」という単語の意味に基づいて生成されます。
ただし、研究者らは、元のプロンプトに他の単語が挿入されると、意味上の変化を引き起こす可能性があります。たとえば、「イボイノシシ」を説明するプロンプトに「裏切り者」という単語が導入されると、生成された画像コンテンツは「イボイノシシ」の本来の意味から逸脱し、まったく新しいコンテンツが生成される可能性があります。
図 10 で、研究者は興味深い現象を観察しました。人間の観点からは、異なる順序で配置されたプロンプトは通常同じ意味を持ちますが、それらはすべて猫、下駄、およびピストルの絵を説明しています。ただし、言語モデル、つまり CLIP テキスト エンコーダの場合、単語の順序はテキストの理解にある程度影響し、生成される画像の内容も変化します。この現象は、説明が意味的に一貫しているにもかかわらず、単語の順序が異なるため、モデルが異なる理解と生成結果を生成する可能性があることを示しています。これは、モデルが言語を処理し意味論を理解する方法が人間とは異なることを明らかにするだけでなく、そのようなモデルを設計および使用する際には語順の影響にもっと注意を払う必要があることを思い出させます。
#モデル構造下の図 1 に示すように、元のターゲット名詞を変更せずに、この前提の下で,研究者はガンベルソフトマックス分布を学習することによって単語置換または拡張の離散的プロセスを連続化し,それによって摂動生成の微分可能性を確保した.画像生成後,CLIP分類器とマージン損失を使用してωを最適化することを目的としたCLIP を生成する 正しく分類できない画像の場合、攻撃的なキューがクリーンなキューと一定の類似性を持っていることを確認するために、研究者はさらに意味的類似性制約とテキスト流暢性制約を使用しました。
この分布を学習すると、アルゴリズムは、同じクリーン テキスト プロンプトに対して攻撃効果のある複数のテキスト プロンプトをサンプリングできるようになります。
# 詳細については、元の記事を参照してください。以上が画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。