Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

王林
リリース: 2024-01-17 12:48:13
転載
633 人が閲覧しました

Text-to-image (T2I) 拡散モデルは、大規模な画像とテキストのペアでの事前トレーニングにより、高解像度画像の生成に優れています。

これは自然な疑問を引き起こします: 視覚認識タスクを解決するために拡散モデルを使用できるでしょうか?

最近、ByteDance と復丹大学のチームは、視覚的なタスクを処理するための拡散モデルを提案しました。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

論文アドレス: https://arxiv.org/abs/2312.14733

オープンソース プロジェクト: https://github.com/fudan-zvg/meta-prompts

チームの重要な洞察は、学習可能なメタプロンプトを事前トレーニングされた拡散モデルに導入して、適切な特性を抽出することです。特定の知覚タスクの。

技術紹介

チームは、テキストから画像への拡散モデルを特徴抽出器として視覚認識タスクに適用します。

まず、入力画像が VQVAE エンコーダによって圧縮され、解像度が元のサイズの 1/8 に低減され、潜在空間特徴表現が生成されます。 VQVAE エンコーダ パラメータは固定されており、後続のトレーニングには参加しないことに注意してください。

次のステップでは、特徴抽出のためにノイズのないデータを UNet に送信します。さまざまなタスクに適切に適応するために、UNet は変調されたタイムステップの埋め込みと複数のメタキューを同時に受信して、形状の一貫した特徴を生成します。

この手法では、特徴表現を強化するために、プロセス全体で繰り返し改良が行われます。これにより、UNet 内のさまざまな層の機能をより対話的に融合できるようになります。 2 番目のサイクルでは、UNet のパラメーターが特定の学習可能な時間変調機能によって調整されます。

最後に、UNet によって生成されたマルチスケール特徴が、ターゲット ビジョン タスク用に特別に設計されたデコーダーに入力されます。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

学習可能なメタ プロンプト設計

安定した普及モデルは UNet を採用アーキテクチャを構築し、クロスアテンションを通じてテキスト キューを画像特徴に統合して、ヴィンセント グラフを実現します。この統合により、画像生成が文脈的にも意味的にも正確になることが保証されます。

ただし、視覚認識タスクの多様性はこの範囲を超えています。画像理解はさまざまな課題に直面しており、多くの場合、ガイダンスとなるテキスト情報が不足しているため、テキスト駆動型の方法が非現実的な場合があります。

この課題に対処するために、技術チームのアプローチはより多様な戦略を採用しており、外部のテキスト キューに依存するのではなく、内部で学習可能なメタ キューを設計しています。メタ プロンプトは、知覚タスクに適応するために拡散モデルに統合されています。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

#メタ プロンプトは、メタ プロンプトの数と次元を表す行列の形式で表現されます。メタ プロンプトを備えた知覚拡散モデルでは、データセット カテゴリ ラベルや画像タイトルなどの外部テキスト プロンプトが不要になり、最終的なテキスト プロンプトを生成するために事前トレーニングされたテキスト エンコーダーは必要ありません。

メタ プロンプトは、ターゲット タスクとデータ セットに従ってエンドツーエンドでトレーニングできるため、UNet のノイズを除去するために特別にカスタマイズされた適応条件を確立できます。これらのメタ プロンプトには、特定のタスクに適合した豊富なセマンティック情報が含まれています。例:

- セマンティック セグメンテーション タスク では、メタ プロンプトはカテゴリを識別する能力を効果的に示しており、同じメタ プロンプトは同じカテゴリの機能をアクティブにする傾向があります。カテゴリー 。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

- 深度推定タスク では、メタ プロンプトは深度を知覚する能力を示し、活性化値は深度に応じて変化します。一定の距離にあるオブジェクトに焦点を合わせるプロンプトを有効にします。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

#- 姿勢推定 では、メタ プロンプトはさまざまな機能セット、特にキー ポイントの認識を示し、これにより人間の姿勢検出が容易になります。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

#これらの定性的結果は、さまざまなタスクにおけるタスク関連の能力を活性化する上で、技術チームによって提案されたメタ プロンプトの有効性を強調しています。

テキスト プロンプトの代替として、メタ プロンプトはテキストから画像への拡散モデルと視覚認識タスクの間のギャップをうまく埋めます。

メタキューに基づく特徴の再編成

拡散モデルは、固有の設計マルチを通じて UNet のノイズ除去で生成されます。 - 出力レイヤーに近い、より細かい低レベルの詳細に焦点を当てたスケール機能。

質感や粒度を強調するタスクにはこの低レベルの詳細で十分ですが、視覚認識タスクでは多くの場合、低レベルの詳細と高レベルの意味解釈の両方を含むコンテンツを理解する必要があります。 。

したがって、豊富な特徴を生成する必要があるだけでなく、これらのマルチスケール特徴のどの組み合わせが現在のタスクに最適な表現を提供できるかを判断することも非常に重要です。

ここでメタ プロンプトが登場します -

これらのプロンプトは、トレーニング中に使用されるデータセットに固有のコンテキストを保持します。ナレッジ。この状況に応じた知識により、メタ プロンプトが機能再結合のフィルターとして機能し、機能選択プロセスをガイドし、UNet によって生成された多くの機能からタスクに最も関連性の高い機能をフィルターで除外できるようになります。

チームは、ドット積アプローチを使用して、UNet の豊富なマルチスケール機能とメタ プロンプトのタスク適応性を組み合わせています。

マルチスケールの機能をそれぞれ検討してみます。特徴マップの高さと幅を表します。メタプロンプト。各スケールで再配置された特徴は次のように計算されます。

最後に、メタ プロンプトによってフィルター処理されたこれらの特徴がタスク固有のデコーダーに入力されます。

学習可能な時間変調特徴に基づく反復的改善

拡散モデルにノイズを追加してからマルチステップを実行します。ノイズ除去の反復プロセスにより、画像生成のフレームワークが形成されます。

このメカニズムに触発されて、技術チームは、出力特徴にノイズを追加せずに、UNet ループ入力の出力特徴を直接追加して、視覚認識タスク用の単純な反復改良プロセスを設計しました。 Uネット。

同時に、モデルがループを通過するにつれて入力特徴の分布が変化するが、UNet のパラメーターは変化しないという不整合の問題を解決するために、技術チームは各ループに学習可能な機能を導入 UNet のパラメータを調整するための独自のタイムステップ埋め込み。

これにより、ネットワークがさまざまなステップでの入力特徴の変動に適応して応答できる状態が維持され、特徴抽出プロセスが最適化され、視覚認識タスクにおけるモデルのパフォーマンスが向上します。

結果は、この方法が複数の知覚タスク データ セットで最適な結果を達成したことを示しています。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。

Byte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。#アプリケーションの実装と展望

この記事で提案する方法と技術には幅広い応用の可能性があり、複数の分野で技術開発と革新を促進できます:

  1. 視覚認識タスクの改善: この研究により、画像セグメンテーション、深度推定、姿勢推定などのさまざまな視覚認識タスクのパフォーマンスを向上させることができます。これらの改善は、自動運転、医療画像解析、ロボットビジョンシステムなどの分野への応用が可能です。
  2. 強化されたコンピュータ ビジョン モデル: 提案されたテクノロジにより、複雑なシーンの処理において、特に明示的なテキスト記述がない場合に、コンピュータ ビジョン モデルをより正確かつ効率的に行うことができます。の場合。これは、画像コンテンツの理解などのアプリケーションにとって特に重要です。
  3. 分野を超えた応用: この研究の手法と結果は、芸術作品、仮想現実、拡張など、分野を超えた研究や応用にインスピレーションを与える可能性があります。画像とビデオの品質とインタラクティブ性を向上させるため。
  4. 長期的な見通し: テクノロジーが進歩するにつれて、これらの方法はさらに改良され、より高度な画像生成およびコンテンツ理解テクノロジーがもたらされる可能性があります。

チーム紹介

インテリジェント クリエーション チームは、ByteDance の AI およびマルチメディア テクノロジー センターであり、コンピューター ビジョン、オーディオおよびビデオ編集、特殊効果処理、その他の技術をカバーしています。同社の豊富なビジネス シナリオ、インフラストラクチャ リソース、および技術コラボレーションの雰囲気を利用して、最先端のアルゴリズム、エンジニアリング システム、製品の閉ループを実現し、社内ビジネスに最先端のコンテンツの理解と提供を目的としています。さまざまな形式のコンテンツ、作成、インタラクティブな体験、消費のための機能と業界ソリューション。

現在、インテリジェント創造チームは、ByteDance が所有するクラウド サービス プラットフォームである Volcano Engine を通じて、その技術能力とサービスを企業に公開しています。大規模モデル アルゴリズムに関連するその他のポジションも募集中です。「原文を読む」 をクリックしてご覧ください。

以上がByte Fudan チームの革新的な「メタチップ」戦略により、拡散モデルの画像理解のパフォーマンスが向上し、前例のないレベルに達しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート