この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。
生成 AI は最近非常に人気があり、目もくらむほど新しい事前トレーニング済み画像生成モデルがたくさんあります。ポートレート、風景、漫画、特定のアーティストのスタイルの要素など、各モデルは生成に適したものを持っています。
非常に多くのモデルがある中で、創造的な欲求を満たすことができる最適なモデルを素早く見つけるにはどうすればよいでしょうか?
最近、カーネギー メロン大学助教授の Zhu Junyan らが初めて コンテンツ ベースのモデル検索アルゴリズム を提案しました。ワンクリックで最適な深度画像生成モデルを生成します。
論文アドレス: https://arxiv.org/pdf/2210.03116.pdf ##この一連のモデル検索アルゴリズムに基づいてチームが開発したオンライン モデル共有および検索プラットフォームである Modelverse では、
テキスト、画像、スケッチ、特定のモデルを入力して、最も多くのモデルを検索できます。一致するモデルまたは類似の関連モデル。
Modelverse プラットフォームのアドレス: https://modelverse.cs.cmu.edu/
## 凡例: テキスト (「アフリカの動物」など)、画像 (風景など)、スケッチ (立っている猫のスケッチなど)、または指定されたモデルを入力し、上位ランキングを出力します。モデル (2 行目と 3 行目)
たとえば、「顔」というテキストを入力すると、次の結果が得られます:
猫の画像を入力してください:
##馬のスケッチを入力してください:
1
コンテンツベースのモデル検索
モデルが特定の画像を生成できるかどうかを判断することは、計算的に困難な問題であり、多くの深い生成モデルでは、密度を推定する効果的な方法ですが、それ自体はクロスモーダル類似性の評価をサポートしません。サンプリングベースのモンテカルロ法では、モデル検索プロセスが非常に遅くなります。
この目的を達成するために、Zhu Junyan のチームは新しいモデル検索システムを提案しました。
各生成モデルは画像分布を生成するため、著者らは、モデルが与えられたクエリに対する一致を生成する確率を最大化する最適化として検索問題にアプローチします。以下の図に示すように、システムは事前キャッシュ ステージ (a、b) と推論ステージ (c) で構成されます。
#キャプション: モデル検索方法の概要
与えられた一連のモデル検索方法モデルでは、(a) まず各モデルに対して 50K サンプルを生成し、(b) 次に画像を画像特徴にエンコードし、各モデルの 1 次および 2 次特徴統計量を計算します。統計はシステム内にキャッシュされ、効率が向上します。(c) 推論段階では、画像、スケッチ、テキストによる説明、別の生成モデル、またはこれらのクエリ タイプの組み合わせなど、さまざまなモダリティのクエリがサポートされます。著者らはここで、クエリが特徴ベクトルとしてエンコードされ、クエリの特徴と各モデル統計間の類似性を評価することによって最良の類似性尺度を持つモデルが取得される近似を導入しています。 著者はアルゴリズムを評価し、133 の深層世代モデル (GAN、拡散モデル、自己回帰モデルを含む) に対してアブレーション実験解析を実施します。モンテカルロ ベースラインと比較して、この方法は 高精度 を維持しながら、 0.08 ミリ秒以内で 5 倍の速度向上を実現し、より効率的な検索を実現できます。 モデルの検索結果を比較することで、どのモデルがさまざまなクエリ入力に対してより高品質の画像を生成できるかについての大まかなアイデアを得ることができます。例えば、モデルの検索結果の比較を次の図に示します。 # 凡例: モデル検索結果の例 著者は、 異なるネットワーク特徴空間ではモデルのパフォーマンスに違いがあることも発見しました。 下の図に示すように、画像クエリを入力する場合、結果は、CLIP、DINO、および Inception の 3 つのネットワークがすべて同様のパフォーマンスを示すことを示していますが、スケッチ クエリを入力する場合、CLIP のパフォーマンスが大幅に優れている一方で、DINO と Inception はそうではありません。特定のクエリでは、芸術的なスタイルのモデルでパフォーマンスが向上します。 注: さまざまなネットワーク フィーチャ空間での画像ベースとスケッチベースのモデル取得の比較 たとえば、マルチモーダル クエリはモデル検索を絞り込むのに役立ちます。「ニコラス ケイジ」の画像しかない場合は顔モデルのみを取得できますが、「ニコラス ケイジ」の場合は顔モデルのみを取得できます。 」も使用し、「犬」を入力として使用すると、「ニコラス・ケイジの犬」画像を生成できる StyleGAN-NADA モデルを取得できます。 (以下に示すように)
#注: マルチモーダル ユーザー クエリ 入力が顔モデルの場合、より多くの顔生成モデルを取得でき、カテゴリは類似したままになります。 (以下に示すように)
#注: 同様のモデル クエリ 指定本物の顔のクエリ画像を決定するには、よりランクの高いモデルを使用すると、より正確な画像再構成が得られます。以下の図は、異なるランキング モデルを使用した、CelebA-HQ と LSUN Church の画像の画像逆マッピングの例です。
# キャプション: 取得した StyleGAN2 モデルに実際の画像を投影します。 #実際の画像を編集するタスクでは、モデルによってパフォーマンスも異なります。以下の図では、最上位の画像ベースのモデル検索アルゴリズムを使用して実際の画像を逆マッピングし、その後 GANspace を使用して編集して、浮世絵画像のしかめ面を笑顔に変換しています。 注: 実際の画像の編集 この研究では、モデル検索の実現可能性が証明されました。テキスト、オーディオ、その他のコンテンツ生成のためのモデル検索のための多くの研究スペース。 しかし、現時点では、この研究で提案されている方法にはまだ一定の制限があります。たとえば、特定のスケッチをクエリすると、抽象的な形状のモデルが一致する場合がありますが、マルチモーダル クエリを実行すると単一のモデルしか取得されない場合があり、システムは犬「象」のような画像の処理が困難になる可能性があります」マルチモーダルクエリ。 (下図の通り) 注: 失敗例 さらに, 同社のモデル検索プラットフォームでは、取得したモデルリストがその効果に応じて自動的に並べ替えられるわけではなく、たとえば、さまざまなモデルが解像度、忠実度、生成された画像の一致度などの観点から評価され、ランク付けされます。これにより、ユーザーの検索が容易になり、現在生成されているモデルの長所と短所をユーザーがよりよく理解できるようになります。
2 モデル検索効果
以上がCMU Zhu Junyan のチームは、さまざまな AI 生成モデルの長所と短所を評価するための自動マッチング ランキング システムを開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。