NTUは新しいRAMモデルを提案し、メタを使用してすべてを分割して関係を取得し、歌と踊りの急所攻撃効果は優れています。-AI-php.cn

今月初め、Meta は「Split Everything」モデルを発表し、CV サークル全体に衝撃を与えました。

# ここ数日で、「Relate-Anything-Model (RAM)」と呼ばれる機械学習モデルが登場しました。これにより、Segment Anything Model (SAM) は、異なる視覚概念間のさまざまな視覚的関係を識別できるようになります。

このモデルは、南洋理工大学の MMLab チームと、キングスカレッジロンドンの VisCom 研究室と同済大学の学生によって開発されたものであると理解されています。時間。

NTUは新しいRAMモデルを提案し、メタを使用してすべてを分割して関係を取得し、歌と踊りの急所攻撃効果は優れています。

デモアドレス: https://huggingface.co/spaces/mmlab-ntu/関連する-anything-model

コードアドレス: https://github.com/Luodian/RelateAnything

##データセットのアドレス: https://github.com/Jingkang50/OpenPSG

効果のデモンストレーション

まずは、見てみましょう「Relate-Anything-Model（RAM）」の応用例を見てみましょう！

たとえば、サッカーをしたり、ダンスをしたり、友達を作ったりする RAM モデルの実装に関する次の画像分析結果は、非常に印象的で、よく表示されています。さまざまなアプリケーションのパフォーマンスと可能性。

NTUは新しいRAMモデルを提案し、メタを使用してすべてを分割して関係を取得し、歌と踊りの急所攻撃効果は優れています。

##予備知識: フルシーングラフ生成 PSG タスク

RAM モデルは、ECCV'22 SenseHuman Workshop & International Algorithm Example Competition「Panoptic Scene Graph Generation」トラックに基づいています。チャンピオンプログラム。

NTUは新しいRAMモデルを提案し、メタを使用してすべてを分割して関係を取得し、歌と踊りの急所攻撃効果は優れています。

文書アドレス: https://arxiv.org/abs/2302.02651

PSG チャレンジには 100 万ドルの賞金があり、高度な画像セグメンテーション手法の使用やロングテール問題の解決など、世界中の 100 チームから提出されたさまざまなソリューションを受け取りました。さらに、コンペティションでは、シーングラフ固有のデータ拡張技術など、いくつかの革新的な手法も採用されました。

パフォーマンス指標、新規性、ソリューションの重要性などの考慮事項に基づいて評価した結果、Xiaohongshu チームの GRNet が優れた手法として際立っていました。

NTUは新しいRAMモデルを提案し、メタを使用してすべてを分割して関係を取得し、歌と踊りの急所攻撃効果は優れています。

コンテストの詳細: https://github.com/Jingkang50/OpenPSG

ソリューションを紹介する前に、まず 2 つの古典的な PSG ベースライン手法を紹介します。1 つは 2 段階手法で、もう 1 つは 1 段階手法です。

2 段階のベースライン手法の場合、図 a に示すように、最初の段階では、事前トレーニングされたパノラマセグメンテーションモデル Panoptic FPN を使用して、画像から特徴、セグメンテーション、および分類予測を抽出します。。次に、個々のオブジェクトの特徴が IMP などの古典的なシーングラフジェネレーターに供給され、第 2 段階で PSG タスクに適合するシーングラフ生成が行われます。この 2 段階のアプローチにより、古典的な SGG メソッドを最小限の変更で PSG タスクに適合させることができます。

図 b に示すように、単一ステージのベースラインメソッド PSGTR は、まず CNN を使用して画像特徴を抽出し、次に DETR と同様のトランスフォーマーエンコーダー/デコーダーを使用します。トリプル表現を直接学ぶことができます。ハンガリアンマッチャーは、予測されたトリプルとグランドトゥルーストリプルを比較するために使用されます。次に、最適化の目的はマッチャーの計算コストを最大化することであり、ラベル付けとセグメンテーションのクロスエントロピー DICE/F-1 損失を使用して総損失が計算されます。

NTUは新しいRAMモデルを提案し、メタを使用してすべてを分割して関係を取得し、歌と踊りの急所攻撃効果は優れています。

RAM モデルのアーキテクチャ

##RAM モデルの設計プロセスでは、著者は、PSG チャンピオンスキーム GRNet の 2 段階構造パラダイムについて言及しています。元の PSG 記事の調査では、現時点では 1 段階モデルのパフォーマンスが 2 段階モデルよりも優れていることが示されていますが、多くの場合、1 段階モデルは 2 段階モデルほど優れたセグメンテーションパフォーマンスを達成できないことがわかります。

さまざまなモデル構造を観察した結果、リレーショナルトリプルの予測における単一段階モデルの優れたパフォーマンスは、画像からの直接監視によるものである可能性があると推測されます。機能マップシグナルは関係を把握するのに適しています。

この観察に基づいて、GRNet のような RAM の設計は、2 つのステージに焦点を当てて 2 つのモード間のトレードオフを見つけることを目的としています。これは、単一段階のパラダイムでグローバルコンテキストを取得する機能によって実現されます。

具体的には、まず、SAM (Segment Anything Model) を特徴抽出器として使用して、画像内のオブジェクトを識別してセグメント化します。また、SAM セグメンターから特定のオブジェクトを抽出します。オブジェクトの中間特徴マップは、対応するセグメンテーションと融合されて、オブジェクトレベルの特徴が取得されます。

#続いて、Transformer がグローバルコンテキストモジュールとして使用され、取得されたオブジェクトレベルの特徴が線形マッピング後に入力されます。 Transformer エンコーダのクロスアテンションメカニズムを通じて、出力オブジェクト機能は他のオブジェクトからよりグローバルな情報を収集します。

#最後に、Transformer によって出力される各オブジェクトレベルの特徴について、セルフアテンションメカニズムを使用してコンテキスト情報がさらに強化され、相互作用が完了します。それぞれのオブジェクト。

ここでは、オブジェクトのカテゴリを示すカテゴリ埋め込みも追加されており、そこからオブジェクトのペアとそれらの関係の予測が得られることに注意してください。。

RAM 関係分類

トレーニングプロセス中に、関係カテゴリごとに、オブジェクトを決定するために関係バイナリ分類タスクを実行する必要があります。ペア間に関係があるかどうか。

#GRNet と同様に、リレーショナルバイナリ分類タスクには特別な考慮事項がいくつかあります。たとえば、PSG データセットには通常、「人々がゾウを見る」と「人々がゾウに餌をやる」といった複数の関係を持つ 2 つのオブジェクトが同時に存在します。マルチラベル問題を解決するために、著者らは関係予測を単一ラベル分類問題からマルチラベル分類問題に変換しました。

#さらに、PSG データセット以来、精度と相関の追求は、境界関係 (「in」や「stop at」など) の学習には適していない可能性があります。実際には同時に存在します）。この問題を解決するために、RAM は、関係分類に自己蒸留ラベルを使用し、指数移動平均を使用してラベルを動的に更新する自己トレーニング戦略を採用しています。

RAM のその他の設計

リレーショナルバイナリ分類損失を計算する場合、予測された各オブジェクトは、対応する基礎となるグラウンドトゥルースオブジェクトとペアになる必要があります。この目的には、ハンガリーのマッチングアルゴリズムが使用されます。

# ただし、このアルゴリズムは、特にネットワークの精度が低いトレーニングの初期段階では不安定になる傾向があります。これにより、同じ入力に対して異なるマッチング結果が得られ、ネットワーク最適化の方向が一貫性を持たなくなり、トレーニングがより困難になる可能性があります。

RAM では、以前のソリューションとは異なり、強力な SAM モデルを利用して、ほぼすべての画像の完全かつ詳細なセグメンテーションを実行できます。予測と GT をマッチングするプロセスにおいて、RAM は当然のことながら、PSG データセットを使用してモデルをトレーニングするという新しい GT マッチング方法を設計しました。

#各トレーニングイメージについて、SAM は複数のオブジェクトをセグメント化しますが、PSG のグラウンドトゥルース (GT) マスクに一致するオブジェクトはほんのわずかです。著者らは、交差結合 (IOU) スコアに基づいて単純なマッチングを実行し、(ほぼ) すべての GT マスクが SAM マスクに割り当てられるようにします。その後、著者は SAM マスクに基づいて関係図を再生成しました。これはモデルの予測と自然に一致しました。

RAM モデルの概要

RAM モデルでは、作成者はセグメント何でもモデル (SAM) を使用して、画像内のオブジェクトを識別してセグメント化します。、およびセグメント化された各オブジェクトの特徴を抽出します。次に、Transformer モジュールを使用してセグメント化されたオブジェクト間で対話し、新しい機能を取得します。最後に、これらの特徴がカテゴリに埋め込まれた後、セルフアテンションメカニズムを通じて予測結果が出力されます。

学習プロセスでは、特に、著者は新しい GT マッチング手法を提案し、この手法に基づいて予測と GT のペア関係を計算し、分類しました。彼らの相互関係。関係分類の教師あり学習プロセスでは、著者はそれをマルチラベル分類問題とみなして、ラベルの境界関係を学習する自己学習戦略を採用しています。

最後に、RAM モデルがさらなるインスピレーションと革新をもたらすことを願っています。関係性を見つけることができる機械学習モデルをトレーニングしたい場合は、このチームの作業をフォローし、いつでもフィードバックや提案を与えることができます。

NTUは新しいRAMモデルを提案し、メタを使用してすべてを分割して関係を取得し、歌と踊りの急所攻撃効果は優れています。