オクルージョンは、コンピュータ ビジョンにおける最も基本的でありながら未解決の問題の 1 つです。オクルージョンとは視覚情報の欠如を意味しますが、マシン ビジョン システムは知覚と理解のために視覚情報に依存しており、実際には世界では、オブジェクト間の相互オクルージョンがあらゆる場所で発生します。オックスフォード大学の VGG 研究所の Andrew Zisserman チームの最新の研究では、任意のオブジェクトのオクルージョン完了の問題を体系的に解決し、この問題に対する新しくてより正確な評価データ セットを提案しました。この作品はXプラットフォーム上でMPIボスのマイケル・ブラック氏やCVPRの公式アカウント、南カリフォルニア大学コンピュータサイエンス学部の公式アカウントなどから賞賛された。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。
ただし、現実世界で非モーダル セグメンテーションのモデルのパフォーマンスを評価する方法は難しい問題です。遮蔽されたオブジェクトの数はわかりますが、これらのオブジェクトの完全な形状の参照標準または非モーダル マスクを取得するにはどうすればよいでしょうか?これまでの作業では、非モーダルマスクに対する手動のアノテーションが行われていましたが、そのようなアノテーションの参照標準では人的エラーの導入を避けるのが難しく、また、完全なオブジェクトに別のオブジェクトを直接アタッチするなど、合成データセットを作成することによる作業もあります。遮蔽されたオブジェクトの完全な形状が得られますが、この方法で取得された画像は実際の画像シーンではありません。したがって、この研究では、3D モデル投影を通じて、複数のオブジェクト カテゴリをカバーする大規模な実画像データセット (MP3D-Amodal) を構築し、アモーダル セグメンテーションのパフォーマンスを正確に評価するためのアモーダル マスクを提供する方法を提案します。さまざまなデータ セットの比較は次のとおりです。
具体的には、実際の写真やシーンについて、MatterPort3D データ セットを例として取り上げます。 3 次元構造化データ セットを使用すると、シーン内のすべてのオブジェクトの 3 次元形状を同時にカメラに投影して、各オブジェクトのモーダル マスク (オブジェクトが互いに遮蔽しているため、目に見える形状) を取得してから、各オブジェクトを投影できます。シーン内では、オブジェクトの 3 次元形状がそれぞれカメラに投影され、オブジェクトのノンモーダル マスク、つまり完全な形状が取得されます。モーダルマスクとノンモーダルマスクを比較することで、遮蔽されたオブジェクトを抽出することができます。
#データセットの統計は次のとおりです:
データセットのサンプルは以下のとおりです。
#また、問題を解決するために、著者が抽出した任意のオブジェクトの完全な形状再構成タスク 安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽されたオブジェクトの非モーダル セグメンテーションを実行します 具体的なアーキテクチャは次のとおりです (SDAmodal) ):
安定拡散機能を使用する動機は、安定拡散には画像を完成させる機能があるため、オブジェクトに関するすべての情報がある程度含まれる可能性があるためです。安定した拡散 多数の画像を使用してトレーニングした後、その機能があらゆる環境のあらゆるオブジェクトを処理する能力を持つことが期待できます。以前の 2 段階のフレームワークとは異なり、SDAmodal は入力としてマークされたオクルージョン マスクを必要としません。SDAmodal は単純な構造を持っていますが、強力なゼロサンプル汎化能力を示します (次の表の設定 F と H を比較してください。COCOA のトレーニングでのみ改善できます)異なるドメインおよび異なるカテゴリの別のデータセット上で); 遮蔽されたオブジェクトの注釈がない場合でも、SDAmodal は、複数のタイプの遮蔽されたオブジェクトをカバーする既存のデータセット COCOA と、新しく提案された MP3D-Amodal データセットを改善できます。 SOTA性能(設定H)を達成しました。
定量的な実験に加えて、定性的な比較にも SDAmodal モデルの利点が反映されています。以下の図からわかります (すべてのモデルはCOCOA トレーニングのみ)、COCOA または別の MP3D-Amodal のいずれからのものでも、さまざまなタイプのオクルージョンされたオブジェクトに対して、SDAmodal は非モーダル セグメンテーションの効果を大幅に向上させることができ、予測された非モーダル マスクは現実に近づきます。
詳細については、原論文をお読みください。
以上が「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。