CMU Zhu Junyan のチームは、さまざまな AI 生成モデルの長所と短所を評価するための自動マッチング ランキング システムを開発しました。

王林
リリース: 2023-05-09 21:09:07
転載
1218 人が閲覧しました

この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。

生成 AI は最近非常に人気があり、目もくらむほど新しい事前トレーニング済み画像生成モデルがたくさんあります。ポートレート、風景、漫画、特定のアーティストのスタイルの要素など、各モデルは生成に適したものを持っています。

非常に多くのモデルがある中で、創造的な欲求を満たすことができる最適なモデルを素早く見つけるにはどうすればよいでしょうか?

最近、カーネギー メロン大学助教授の Zhu Junyan らが初めて コンテンツ ベースのモデル検索アルゴリズム を提案しました。ワンクリックで最適な深度画像生成モデルを生成します。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

論文アドレス: https://arxiv.org/pdf/2210.03116.pdf ##この一連のモデル検索アルゴリズムに基づいてチームが開発したオンライン モデル共有および検索プラットフォームである Modelverse では、

テキスト、画像、スケッチ、特定のモデルを入力して、

最も多くのモデルを検索できます。一致するモデルまたは類似の関連モデル。

Modelverse プラットフォームのアドレス: https://modelverse.cs.cmu.edu/

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统## 凡例: テキスト (「アフリカの動物」など)、画像 (風景など)、スケッチ (立っている猫のスケッチなど)、または指定されたモデルを入力し、上位ランキングを出力します。モデル (2 行目と 3 行目)

たとえば、「顔」というテキストを入力すると、次の結果が得られます:

猫の画像を入力してください: AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

##馬のスケッチを入力してください:

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

1

コンテンツベースのモデル検索AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

従来のマルチメディア検索と同様、モデル検索はユーザーが最適なモデルを見つけるのに役立ちます。特定のニーズモデルに適合します。ただし、コンテンツベースのモデル検索タスクには、特有の困難があります。

モデルが特定の画像を生成できるかどうかを判断することは、計算的に困難な問題であり、多くの深い生成モデルでは、密度を推定する効果的な方法ですが、それ自体はクロスモーダル類似性の評価をサポートしません。サンプリングベースのモンテカルロ法では、モデル検索プロセスが非常に遅くなります。

この目的を達成するために、Zhu Junyan のチームは新しいモデル検索システムを提案しました。

各生成モデルは画像分布を生成するため、著者らは、モデルが与えられたクエリに対する一致を生成する確率を最大化する最適化として検索問題にアプローチします。以下の図に示すように、システムは事前キャッシュ ステージ (a、b) と推論ステージ (c) で構成されます。

#キャプション: モデル検索方法の概要

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

与えられた一連のモデル検索方法モデルでは、(a) まず各モデルに対して 50K サンプルを生成し、(b) 次に画像を画像特徴にエンコードし、各モデルの 1 次および 2 次特徴統計量を計算します。統計はシステム内にキャッシュされ、効率が向上します。(c) 推論段階では、画像、スケッチ、テキストによる説明、別の生成モデル、またはこれらのクエリ タイプの組み合わせなど、さまざまなモダリティのクエリがサポートされます。著者らはここで、クエリが特徴ベクトルとしてエンコードされ、クエリの特徴と各モデル統計間の類似性を評価することによって最良の類似性尺度を持つモデルが取得される近似を導入しています。

2 モデル検索効果

著者はアルゴリズムを評価し、133 の深層世代モデル (GAN、拡散モデル、自己回帰モデルを含む) に対してアブレーション実験解析を実施します。モンテカルロ ベースラインと比較して、この方法は 高精度 を維持しながら、 0.08 ミリ秒以内で 5 倍の速度向上を実現し、より効率的な検索を実現できます。

モデルの検索結果を比較することで、どのモデルがさまざまなクエリ入力に対してより高品質の画像を生成できるかについての大まかなアイデアを得ることができます。例えば、モデルの検索結果の比較を次の図に示します。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

# 凡例: モデル検索結果の例

先頭行は画像クエリ、静物画の入力、関連する芸術スタイルのモデルの取得、および第 1 位の StyleGAN2 モデルと第 2 位の Vision-aided GAN モデルの取得。中段はスケッチクエリで、馬や教会のスケッチを入力し、ADMやProGANなどのモデルを取得します。一番下の行はテキストクエリで、「眼鏡をかけている人」と「話す鳥」を入力すると、それぞれ最上位の GANSketch モデルと自己蒸留 GAN モデルが取得されます。

著者は、

異なるネットワーク特徴空間ではモデルのパフォーマンスに違いがあることも発見しました。 下の図に示すように、画像クエリを入力する場合、結果は、CLIP、DINO、および Inception の 3 つのネットワークがすべて同様のパフォーマンスを示すことを示していますが、スケッチ クエリを入力する場合、CLIP のパフォーマンスが大幅に優れている一方で、DINO と Inception はそうではありません。特定のクエリでは、芸術的なスタイルのモデルでパフォーマンスが向上します。

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

注: さまざまなネットワーク フィーチャ空間での画像ベースとスケッチベースのモデル取得の比較

さらに、この研究で提案されたモデル検索アルゴリズムは、マルチモーダル ユーザー クエリ、類似モデル クエリ、実画像の再構成と編集などを含むさまざまなアプリケーションもサポートできます。

たとえば、マルチモーダル クエリはモデル検索を絞り込むのに役立ちます。「ニコラス ケイジ」の画像しかない場合は顔モデルのみを取得できますが、「ニコラス ケイジ」の場合は顔モデルのみを取得できます。 」も使用し、「犬」を入力として使用すると、「ニコラス・ケイジの犬」画像を生成できる StyleGAN-NADA モデルを取得できます。 (以下に示すように)

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

#注: マルチモーダル ユーザー クエリ

入力が顔モデルの場合、より多くの顔生成モデルを取得でき、カテゴリは類似したままになります。 (以下に示すように)

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统#注: 同様のモデル クエリ

指定本物の顔のクエリ画像を決定するには、よりランクの高いモデルを使用すると、より正確な画像再構成が得られます。以下の図は、異なるランキング モデルを使用した、CelebA-HQ と LSUN Church の画像の画像逆マッピングの例です。

# キャプション: 取得した StyleGAN2 モデルに実際の画像を投影します。 AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

#実際の画像を編集するタスクでは、モデルによってパフォーマンスも異なります。以下の図では、最上位の画像ベースのモデル検索アルゴリズムを使用して実際の画像を逆マッピングし、その後 GANspace を使用して編集して、浮世絵画像のしかめ面を笑顔に変換しています。

注: 実際の画像の編集

この研究では、モデル検索の実現可能性が証明されました。テキスト、オーディオ、その他のコンテンツ生成のためのモデル検索のための多くの研究スペース。

しかし、現時点では、この研究で提案されている方法にはまだ一定の制限があります。たとえば、特定のスケッチをクエリすると、抽象的な形状のモデルが一致する場合がありますが、マルチモーダル クエリを実行すると単一のモデルしか取得されない場合があり、システムは犬「象」のような画像の処理が困難になる可能性があります」マルチモーダルクエリ。 (下図の通り)

AI 生成模型五花八门,谁好谁坏?CMU 朱俊彦团队推出自动匹配排名系统

注: 失敗例

さらに, 同社のモデル検索プラットフォームでは、取得したモデルリストがその効果に応じて自動的に並べ替えられるわけではなく、たとえば、さまざまなモデルが解像度、忠実度、生成された画像の一致度などの観点から評価され、ランク付けされます。これにより、ユーザーの検索が容易になり、現在生成されているモデルの長所と短所をユーザーがよりよく理解できるようになります。

以上がCMU Zhu Junyan のチームは、さまざまな AI 生成モデルの長所と短所を評価するための自動マッチング ランキング システムを開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!