テキストと画像編集の新しいパラダイム。単一モデルでマルチテキストのガイド付き画像編集が可能
#論文の概要
#テキストを使用した画像編集に関する研究は非常に活発であり、最近の研究の多くはノイズ除去拡散に基づいています。しかし、GAN 関連の研究に注目し続けている学者はほとんどいません。この記事は、古典的な StyleGAN と CLIP に基づいており、テキスト画像編集を実行するためにさまざまなテキストに対して 1 つのモデルだけが必要となるように、セマンティック変調モジュールを提案しています。
この記事では、まず既存のエンコーダを使用して、編集対象の画像を StyleGAN の W^ セマンティック空間内の潜在コード w に変換し、次に提案されたセマンティック変調モジュールを使用してエンコードします。潜在コード 適応変調を実行します。セマンティック変調モジュールには、セマンティック アラインメント モジュールとセマンティック インジェクション モジュールが含まれています。最初に、アテンション メカニズムを通じてテキスト エンコーディングと GAN の潜在エンコーディングの間でセマンティクスを調整し、次にアラインメントされた潜在エンコーディングにテキスト情報を注入して、Cain エンコーディングが確実に所有するようにします。テキストを使用して画像を編集する機能を実現する情報。
従来の StyleCLIP モデルとは異なり、このモデルはテキストごとに個別のモデルをトレーニングする必要はありません。1 つのモデルが複数のテキストに応答して画像を効果的に編集できるため、モデルは次のようになります。 FFCLIP フリーフォームのテキスト駆動型画像操作。同時に、私たちのモデルは、古典的な教会、顔、車のデータセットで非常に良い結果を達成しました。
- 論文アドレス: https://arxiv.org/pdf/2210.07883.pdf
- #Github アドレス: https://github.com/KumapowerLIU/FFCLIP 背景とインスピレーション
##最近、画像編集操作のために StyleGAN 潜在空間を編集するために、ユーザーの意図を説明するフリー テキスト プロンプトが使用されています [1、2]。これらのメソッドは、文 (例: 「Blue」) またはフレーズ (例: 「10 歳の男性」) を入力として受け取り、StyleGAN 潜在空間内の潜在エンコーディングを変調することによって、記述された画像属性をそれに応じて編集します。
正確なテキスト画像編集は、StyleGAN の視覚的意味空間と CLIP のテキスト意味空間の間の正確な潜在マッピングに依存します。たとえば、テキストプロンプトが「驚き」である場合、視覚的意味空間内でその関連する意味論的部分空間(つまり、驚きは表現の属性に属するため「表現」)を最初に特定します。テキストに対応する意味部分空間を見つけた後、テキストは、現在の表現から驚きの表現まで、潜在的なエンコーディングが変化する方向を教えてくれます。 TediGAN [1] や StyleCLIP [2] などの先駆的な研究は、どの潜在視覚部分空間がターゲットのテキストヒント埋め込み (つまり、TediGAN での特定の属性選択と StyleCLIP でのグループ化マッピング) に対応するかを経験的に事前定義しました。この経験的認識により、テキスト プロンプトが与えられた場合、対応する編集モデルをトレーニングする必要があることが制約されます。
StyleGAN の潜在視覚部分空間内の潜在コードを変調するには、テキスト キューが異なると、異なるモデルが必要になります。 StyleCLIP のグローバル方向設定方法ではそのようなプロセスは採用されていませんが、パラメータの調整と編集方向は手動で事前に定義されています。このため、単一のモデルで複数のテキストを処理できるように、明示的なテキストを通じて暗黙の視覚的意味部分空間を自動的に見つける方法を検討する理由があります。
この論文では、さまざまなテキストに対応する視覚部分空間を自動的に見つけることができる FFCLIP-Free Form CLIP を提案します。 FFCLIP は、StyleGAN 潜在空間 W^ 内の潜在エンコーディング w^ とテキスト エンコーディング e を入力として受け取るいくつかのセマンティック変調モジュールで構成されます。
セマンティック変調モジュールは、セマンティック アライメント モジュールとセマンティック インジェクション モジュールで構成されます。セマンティック アライメント モジュールは、テキスト エンコーディング e をクエリとして、潜在エンコーディング w をキーと値として受け取ります。次に、位置とチャネルの次元でそれぞれクロス アテンションを計算し、2 つのアテンション マップが得られます。次に、線形変換を使用して、現在の視覚空間をテキストに対応する部分空間に変換します。線形変換パラメーター (つまり、変換パラメーターとスケーリング パラメーター) は、これら 2 つのアテンション マップに基づいて計算されます。この位置合わせを通じて、各テキストに対応する視覚的な部分空間を自動的に見つけることができます。最後に、セマンティック インジェクション モジュール [3] は、別の線形変換に従って部分空間内の潜在コードを変更します。
FFCLIP の観点から見ると、[1, 2] 中性子空間の経験的選択は、セマンティック アラインメント モジュールにおける線形変換の特別な形式です。それらのグループ選択操作は、w の各位置次元の使用法を示すスケーリング パラメーターのバイナリ値に似ています。一方で、W^ 空間の意味論はまだもつれており、経験的設計では StyleGAN の潜在空間と CLIP のテキスト意味論的空間の間の正確なマッピングを見つけることができないことが観察されています。代わりに、セマンティック アライメント モジュールのスケーリング パラメーターは、潜在コード w を適応的に変更して、さまざまなテキスト キューの埋め込みをマッピングします。その後、翻訳パラメータによって位置合わせがさらに改善されます。ベンチマーク データセットでメソッドを評価し、FFCLIP を最先端のメソッドと比較します。結果は、FFCLIP がユーザーの意図を伝えながら、より合理的なコンテンツを生成できることを示しています。
#FFCLIP図 1 は、全体的なフレームワークを示しています。 FFCLIP はまず、事前にトレーニングされた GAN 反転エンコーダーとテキスト エンコーダーを通じて画像とテキストの潜在エンコーディングを取得します。画像の潜在エンコーディングは、前述の StyleGAN 視覚意味空間 W^ の w であり、テキスト エンコーディングは e_t です。 StyleCLIP と同様に、CLIP では e4e GAN 反転エンコーダ [4] とテキスト エンコーダを使用して、それぞれ対応する潜在エンコーディングを取得します。次に、e_t と w を変調モジュールの入力として使用し、w のオフセット Δw を出力します。最後に、Δw を元の w に加算し、事前トレーニングされた StyleGAN に入力して、対応する結果を取得します。
図 1: 全体的なフレームワーク図
下の図 2 は、セマンティック変調モジュールです。セマンティック アライメント モジュール (セマンティック アライメント) では、Δw を Key と Value に設定し、e_t を Query に設定して 2 つのアテンション マップを計算していることが明確にわかります。これら 2 つのアテンション マップのサイズは、それぞれ 18×1 と 512×512 です。 。次に、18×1 アテンション マップを線形変換のスケーリング係数 S として使用します。アテンション マップを計算するプロセスは次のとおりです。 #同時に、512×512のアテンションマップにValueを乗算した後、Pooling演算を通じて陽的変換における変換係数Tを取得します。アテンション マップを計算するプロセスは次のとおりです。
上記の操作を通じてテキストに対応する視覚部分空間を作成し、AdaIN と同様の方法を使用して、この空間にテキスト情報を注入して最終結果を取得します。この操作をセマンティック インジェクション モジュール (セマンティック インジェクション) と呼びます。モジュール全体の実装手順は次のとおりです。
最終的に、合計 4 つのセマンティック変調モジュールが FFCLIP にスタックされ、最終的に最終的なオフセット Δw が取得されました。 ##図 3: 視覚的な比較チャート 図 3 に示すように、StyleCLIP [1]、TediGAN [2]、HairCLIP [3] と視覚的に比較しました。FFCLIP がテキストのセマンティクスをよりよく反映していることがわかります。よりリアルな編集画像を生成します。同時に、対応する数値比較結果は以下の表に示されており、私たちの方法は客観的値と主観的値の両方で最良の結果を達成できます。 #表 1: 数値比較
##図 4: フレーズ編集さらなる実験結果とアブレーション実験については、原文を参照してください。 概要#実験結果
この論文では、FFCLIP を提案します。FFCLIP は、さまざまなテキストをターゲットにしながら、単一のモデルのみを必要とする、効率的な画像編集のための新しい方法です。この記事の目的は、既存のメソッドは既存の経験に基づいて現在のテキストと GAN のセマンティック サブスペースに一致するため、編集モデルは 1 つのテキスト プロンプトのみを処理できるということです。アライメントと注入されたセマンティック変調を通じて潜在マッピングを改善します。これにより、1 つの編集モデルで複数のテキスト プロンプトを処理することが容易になります。複数のデータセットでの実験により、FFCLIP が意味的に適切で視覚的に現実的な結果を効果的に生成することが実証されました。
以上がテキストと画像編集の新しいパラダイム。単一モデルでマルチテキストのガイド付き画像編集が可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
