Li Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価-AI-php.cn

少し前の 2024 年の TED スピーチで、リー・フェイフェイは空間インテリジェンスの概念について詳しく説明しました。 彼女は、ここ数年のコンピュータービジョン分野の急速な発展に非常に喜び、非常に熱心であり、この目的のために新興企業を設立しています

このスピーチの中で、彼女は、の研究結果であるBEHAVIORについて言及しました。スタンフォード大学のチームは、コンピューターやロボットに 3 次元世界でどのように行動するかを訓練するために彼らが「作成」した行動データと動作データのセットです。 BEHAVIOR は、さまざまなシナリオにおける人間の行動や行動を含む巨大なデータセットです。このデータセットの目的は、コンピューターやロボットが人間の行動をよりよく理解し、模倣できるようにすることです。 BEHAVIOR の大量のデータを分析することで、研究者は

を得ることができます。さて、Wu Jiajun 氏はチームを率い、追跡調査「BEHAVIOR Vision Suite (BVS) 」を発表しました。この論文は CVPR 2024 ハイライトも受賞しました。

Li Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価

コンピュータービジョンの分野では、さまざまな条件下でのモデルのパフォーマンスを体系的に評価し理解するには、定量的なデータと包括的でカスタマイズされたラベルが必要です。ただし、現実世界のビジュアルデータセットは、これらのニーズを満たすのに苦労することがよくあります。 AI タスクなどの有望な代替手段は有望ですが、リソースとレンダリングの品質、データの多様性、物理的特性の現実性の点でまだ多くの欠点があります。

これらの問題を解決するために、研究チームは「BEHAVIOR Vision Suite (BVS)」を立ち上げました。

BVS は、コンピュータービジョンモデルの体系的な評価のために設計されたツールとリソースのセットです。 BVS は、新しく開発された AI ベンチマーク BEHAVIOR-1K に基づいて、シーンレベル (照明、オブジェクトの配置など)、オブジェクトレベル (関節構成、属性など)、カメラレベル (視野、焦点距離など) をカバーするパラメーターを調整できます。）。研究者は、データ収集中にこれらのパラメーターを調整して、実験をさらに正確に制御できます。

このモデルは、環境パラメーターの継続的な変化に対するロバストネスにおける視覚モデルのパラメーター制御評価を含む、さまざまなモデル評価およびトレーニングアプリケーションにおける BVS の利点も示しています。、シーン理解モデルの体系的な評価 (豊富な視覚的注釈) と新しい視覚タスクのモデルトレーニング

Li Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価

プロジェクトリンク:https://behavior-vision-suite.github. io/
ペーパーリンク: https://arxiv.org/pdf/2405.09546
コードリンク: https://github.com/behaviまたはビジョン-suite/behavior-vision-suite.github.io

Li Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価

BEHAVIOR Vision Suite

BVSには、データ部分と、このカスタマイズ可能なデータジェネレーターに基づく

データ部分の2つの部分が含まれています。

BVS のデータ部分は、51 人のアーティストによってデザインされた合計 8841 個の 3D オブジェクトモデルと屋内シーンを含む、BEHAVIOR-1K のアセットに基づいて拡張され、これらのモデルとシーンは 1000 個のシーンインスタンスに拡張されています。研究チームは、ユーザーがより強化されたシーンインスタンスを自動的に生成できるようにするスクリプトも提供しています

Li Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価

カスタマイズ可能なデータジェネレーター

。ユーザーは、BVS のデータ部分を簡単に使用して、暗い光の下での屋内シーンなどの画像データセットのニーズを満たすことができます。

BVS は、要件を満たしながら、その忠実性と物理的合理性を確保しながら、生成されたデータセットに高い意味論的多様性を持たせることができます。具体的には、ユーザーは、カメラの位置、照明、オブジェクトのプロパティ (サイズなど)、オブジェクトのステータス (オン、オフなど)、オブジェクト間の空間関係の 5 つの側面を制御できます。

アプリケーションシナリオ

研究者らは、以下を含む 3 つのアプリケーションシナリオで BVS によって生成されたデータの操作を実証しました。

環境パラメータにおけるビジュアルモデルのパラメータ制御可能な評価連続変化中のロバスト性: パフォーマンスの調査冷蔵庫のドアが全閉から全開プロセスに変化するときの物体検出モデルの評価など、さまざまな環境パラメータ (閉塞度、周囲の明るさ、撮影角度、物体の関節の動き、視野) の連続変化下でのモデルの変化冷蔵庫の存在を正確に検出できるため、実際のアプリケーションでのさまざまな環境変化に確実に対応できます。さまざまな制限パラメーター条件下でのモデルの能力境界も調査できます。

シーン理解モデルを評価する: 完全に注釈が付けられた画像を使用して、さまざまなシーン理解モデルのパフォーマンスが体系的に評価されます。

新しいビジョンタスクモデルをトレーニングする: 合成データ上でオブジェクトの状態と関係を予測するための新しいビジョンタスクモデルをトレーニングし、シミュレーションから実際のアプリケーションへの移行可能性を評価して、モデルが現実の環境で効果的であることを確認します。

パラメータは、環境パラメータが連続的に変化するときの視覚モデルのロバスト性を制御可能に評価します

特定の次元で継続的に変化するデータを生成することにより、研究者はここで視覚モデルのロバストネスを体系的に評価します。たとえば、同じシーン内でオブジェクトのオクルージョンの程度が徐々に増加するデータが生成され、部分的にオクルージョンされたオブジェクトの下での視覚モデルのパフォーマンスが評価されます。

研究者らは、さまざまな SOTA モデルを評価することにより、共通分布外のデータでは既存のモデルのパフォーマンスが依然として低いことを発見しました。これらのデータは現実世界では取得したりラベル付けしたりすることが難しいため、実際の画像データセットからこれらの結論を直接導き出すことは困難です。したがって、BVS は、研究者が関心のある条件下でモデルの堅牢性を評価し、モデルをより適切に開発および改善するのに役立ちます。

既存のSOTAモデルには、変化する条件（カメラの仰角など）下での堅牢性を向上させる余地がまだあります

5つの環境パラメータが連続的に変化するときのさまざまな検出モデルのパフォーマンス

シーン理解モデルの評価

BVS によって形成されたデータセットのもう 1 つの特徴は、深さ、セマンティックセグメンテーション、ターゲットボックスなどのマルチモーダルな実ラベルが含まれていることです。これにより、研究者は BVS によって生成されたデータを使用して、同じ画像上のさまざまなタスクの予測モデルを評価できるようになります。

研究チームは、オープンワードの検出とセグメンテーション、深度推定、点群再構成の 4 つのタスクについて SOTA モデルを評価し、BVS データセットでのモデルのパフォーマンスが実際のデータベンチマークでのパフォーマンスと一致していることを発見しました。対応するタスクの。これは、BVS によって生成された高品質のデータが現実世界のデータを真に反映し、表現していることを示しており、研究者らはそのようなデータセットがマルチタスク予測モデルの開発を促進できることを期待しています。

オープンソースコードでは、研究チームはユーザーがシーン内の軌跡をサンプルするのを容易にするスクリプトも提供しています。

研究者らは、シーン理解モデル

全体的なシーン理解データセットを評価するために、多くのシーン閲覧ビデオ⽤を収集しました。研究者らは、代表的なシーンで多数のトラバースビデオを生成し、それぞれに 10 を超えるカメラの軌跡が含まれていました。画像ごとに、BVS はさまざまなラベル (シーンマップ、セグメンテーションマスク、深度マップなど) を生成します

BVSデータ上のSOTAモデルの相対的なパフォーマンス順序は実際のタスクベンチマークと一致しています

新しいビジョンタスクモデルのトレーニング

BVSのデータ貢献はモデル評価に限定されません、ただし、現実のシナリオで使用するのが難しい人向けにもなります。データの収集またはラベル付けのタスクでは、BVS データをモデルのトレーニングに使用することもできます。

著者は BVS を使用して 12.5k の画像を生成し、オブジェクトの空間関係と状態予測モデルをトレーニングするためにのみ使用しました。このモデルは、トレーニングに実際のデータを使用せずに、実際のシナリオで 0.839 の F1 スコアを達成しました。これは、シミュレーションから実際への優れた転送機能を反映しています。

シミュレートされたトレーニングデータセットと実際のテストデータセットの図例

BVSによって生成されたデータを使用して、オブジェクトの空間関係と状態予測モデルをトレーニングします

概要

BVS は強力なツールとリソースのセットを提供し、コンピュータービジョン研究者がカスタマイズされた合成データセットを生成するための新しい方法を提供します。

データ生成プロセスにおけるさまざまなパラメーターを体系的に制御および調整することで、研究者はコンピュータービジョンモデルのパフォーマンスをより包括的に評価および改善し、将来の研究と応用のための強固な基盤を築くことができます。

以上がLi Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータビジョンモデルを評価の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。