Stable Diffusion のオープンソース化により、画像生成に自然言語を使用することが徐々に一般的になってきましたが、AI が手を描けない、動作関係を理解できない、表現が難しいなど、AIGC の多くの問題も明らかになりました。オブジェクトの位置を制御します。
主な理由は、「入力インターフェイス」が自然言語のみを備えており、 画面の細かい制御ができないためです。
最近、ウィスコンシン大学マディソン校、コロンビア大学、マイクロソフトの研究ホットスポットが、既存の「事前トレーニング済み」を変換する条件として接地入力を使用するまったく新しい手法 GLIGEN を提案しました。 text to image」拡散モデルの機能が拡張されました。
# 論文リンク: https://arxiv.org/pdf/2301.07093.pdf
#プロジェクトのホームページ: https://gligen.github.io/#エクスペリエンスリンク: https://gligen.github.io/
## : //huggingface.co/spaces/gligen/demo
事前トレーニング済みモデルの大量の概念的知識を保持するために、研究者らは、このメカニズムは、オープンワールド画像生成の制御を実現するために、新しいトレーニング可能な層にさまざまな入力接地条件を注入します。
現在、GLIGEN は 4 つの入力をサポートしています。
(左上) テキスト エンティティ ボックス (右上) 画像エンティティ ボックス
(左下) 画像スタイル テキスト ボックス (右下) テキスト エンティティのキー ポイント
実験結果は、GLIGEN がCOCO および LVIS でのパフォーマンスが向上しています。ゼロショットのパフォーマンスは、現在の教師付きレイアウトから画像へのベースラインよりも大幅に優れています。
制御可能な画像生成拡散モデルが登場する前は、敵対的生成ネットワーク (GAN) が常に画像生成分野のリーダーであり、その潜在空間と条件付き「制御可能な動作」と「生成」の側面を徹底的に研究しました。
テキスト条件付き自己回帰モデルと拡散モデルは、より安定した学習目標とネットワークの画像とテキストのペアのデータへの大規模なアクセスのおかげで、驚くべき画質と概念範囲を示します。トレーニングしてすぐに抜け出すことができます。アートデザインと創作を支援するツールとして、サークルの一員として活動します。
しかし、既存の大規模なテキスト画像生成モデルは、「テキスト以外の」他の入力モードを条件とすることができず、正確な位置決めや参照画像を使用してテキスト画像を制御するという概念がありません。生成プロセス 能力は情報の表現を制限します。
たとえば、境界ボックス (境界
ボックス) やキーポイントを使用しながら、テキストを使用してオブジェクトの正確な位置を説明することは困難です。 (キーポイント)は簡単に実装できます。
修復、layout2img 生成などの一部の既存ツールはテキスト以外のモーダル入力を使用できますが、これらの入力が制御された text2img 生成のために結合されることはほとんどありません。
さらに、以前の生成モデルは通常、タスク固有のデータセットに基づいて独立してトレーニングされますが、画像認識の分野では、長年のパラダイムは「大規模な画像」から学習することです。データ」または「画像とテキストのペア」で事前トレーニングされた基本モデルを使用して、特定のタスク用のモデルの構築を開始します。
拡散モデルは、数十億の画像とテキストのペアでトレーニングされています。当然の疑問は、既存の事前トレーニングされた拡散モデルを基に構築できるか?、新しい条件付き入力モードを与えることができるか、ということです。
事前トレーニング済みモデルが持つ大量の概念的知識により、既存のテキスト画像生成よりも多くのデータを取得しながら、他の生成タスクでより良いパフォーマンスを達成できる可能性があります。モデルのコントロール。
GLIGEN上記の目的とアイデアに基づいて、研究者によって提案された GLIGEN モデルは入力としてテキスト タイトルを保持しますが、次のような他の入力モダリティも有効にします。グラウンディングのコンセプトとして バウンディングボックス、グラウンディング参考画像、そしてグラウンディング部分の要点。
###ここでの重要な問題は、新しい基礎情報を注入する方法を学習しながら、事前トレーニングされたモデルに大量の元の概念的知識を保持することです。
知識の忘却を防ぐために、研究者らは、元のモデルの重みをフリーズし、新しいグラウディング入力を吸収するために新しいトレーニング可能なゲート付きトランスフォーマー レイヤーを追加することを提案しました。以下では、例としてバウンディング ボックスを使用します。 。
コマンド入力
各下地テキスト エンティティは、左上隅と右下隅の座標値を含む境界ボックスとして表されます。
既存のlayout2img関連の作業には通常、概念辞書が必要であり、評価段階では近い集合エンティティ(COCOカテゴリなど)しか処理できないことに注意してください。画像の説明をエンコードするエンコーダは、トレーニング セット内の位置情報を他の概念に一般化できます。
#トレーニング データ
# はグラウンディング画像の生成に使用されますトレーニング データには条件としてテキスト c と根拠となるエンティティ e が必要ですが、実際には、より柔軟な入力を考慮することでデータ要件を緩和できます。
#データには主に 3 つのタイプがあります
#1 . グラウンディング データ
#各画像は、画像全体を説明するキャプションに関連付けられており、名詞エンティティはキャプションから抽出され、境界ボックスでラベル付けされます。名詞エンティティは自然言語のタイトルから直接取得されるため、より豊富な語彙をカバーでき、オープンワールド語彙の基礎生成に有益です。
2. 検出データ
名詞エンティティは、事前に定義された近接集合カテゴリです (たとえば、COCO では80 オブジェクト カテゴリ)、分類子なしガイドの空のタイトル トークンをタイトルとして使用することを選択します。検出データの量 (数百万レベル) は基礎データ (数千レベル) よりも大きいため、全体の学習データを大幅に増やすことができます。
3. 検出データとキャプション データ
名詞エンティティは検出データの名詞エンティティと同じです, 画像はテキスト タイトルのみで説明されていますが、名詞の実体がタイトルの実体と完全に一致していない場合があります。たとえば、タイトルではリビング ルームの大まかな説明のみが示され、シーン内のオブジェクトについては言及されていませんが、検出の注釈はオブジェクト レベルの詳細を提供します。
ゲート アテンション メカニズム
研究者 目標は、既存の大規模な言語画像生成モデルに新しい空間ベースの機能を与える#大規模な拡散モデルは、ネットワーク規模の画像テキストで事前にトレーニングされており、必要な知識を取得します。多様で複雑な言語命令に基づいてリアルな画像を合成します。事前トレーニングは費用がかかり、パフォーマンスも良好であるため、新しい機能を拡張しながら、この知識をモデルの重みに保持することが重要です。これは、新しいモジュールを適応させて新しい機能に対応させることで実現できます。時間。
# トレーニング プロセス中、ゲート メカニズムを使用して、新しいグラウンディング情報を事前トレーニングされたモデルに徐々に統合します。この設計により、生成中のサンプリング プロセスが柔軟になり、品質と制御性が向上します。
実験では、サンプリング ステップの前半では完全なモデル (すべてのレイヤー) を使用し、後半では元のレイヤー (ゲート トランスフォーマー レイヤーなし) のみを使用することも証明されました。結果は接地状態をより正確に反映し、より高い画質を得ることができます。
オープンセットのグラウンデッドテキストから画像への生成タスクでは、まずCOCO (COCO2014CD)の基本的なアノテーションのみをトレーニングに使用し、GLIGENがアノテーション以外の基本的なエンティティを生成できるかどうかを評価します。 COCOカテゴリーです。
GLIGEN は、「アオカケス」、「クロワッサン」、または新しい概念などの新しい概念を学習できることがわかります。 「茶色の木のテーブル」などのオブジェクト属性。この情報はトレーニング カテゴリには表示されません。
研究者らは、これは、GLIGEN のゲート型自己注意が、次の相互注意層のタイトル内の接地されたエンティティに対応する視覚的特徴を再配置することを学習し、一般化機能が得られたためであると考えています。これら 2 つのレイヤーの共有テキスト スペース。
実験では、1203 個のロングテール オブジェクト カテゴリを含む LVIS 上でのこのモデルのゼロショット生成パフォーマンスも定量的に評価されました。 GLIP を使用して、生成された画像から境界ボックスを予測し、GLIP スコアという名前の AP を計算します。それを、layout2img タスク用に設計された最先端のモデル
# と比較します。
##GLIGEN モデルは COCO アノテーションのみでトレーニングされていますが、教師ありベースラインよりもはるかに優れていることがわかります。これはおそらく、ゼロからトレーニングされたベースラインは学習から始めるのが難しいためです。注釈は限られていますが、GLIGEN モデルは事前トレーニングされたモデルの大量の概念的知識を利用できます。
この文書全体:
1. 新しい text2img 世代既存の text2img 拡散モデルに新しい接地制御性を与えるメソッドが提案されています;
2. 事前に訓練された重みを保持し、学習により新しい位置レイヤーを徐々に統合することで、モデルは次のことを実現しますオープンワールドのグラウンディングされた text2img 生成とバウンディング ボックス入力、つまり、トレーニングでは観察されなかった新しい位置決め概念が統合されています;3.layout2img タスクにおけるこのモデルのゼロショット パフォーマンス以前の最先端レベルよりも大幅に優れており、大規模な事前トレーニング済み生成モデルが下流タスクのパフォーマンスを向上させることができることを証明しています
以上が拡散 + ターゲット検出 = 制御可能な画像生成!中国チームは物体の空間位置を完全に制御するGLIGENを提案したの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。