少し前の 2024 年の TED スピーチで、リー・フェイフェイは空間インテリジェンスの概念について詳しく説明しました。 彼女は、ここ数年のコンピュータービジョン分野の急速な発展に非常に喜び、非常に熱心であり、この目的のために新興企業を設立しています
このスピーチの中で、彼女は、の研究結果であるBEHAVIORについて言及しました。スタンフォード大学のチームは、コンピューターやロボットに 3 次元世界でどのように行動するかを訓練するために彼らが「作成」した行動データと動作データのセットです。 BEHAVIOR は、さまざまなシナリオにおける人間の行動や行動を含む巨大なデータ セットです。このデータセットの目的は、コンピューターやロボットが人間の行動をよりよく理解し、模倣できるようにすることです。 BEHAVIOR の大量のデータを分析することで、研究者は
を得ることができます。 さて、Wu Jiajun 氏はチームを率い、追跡調査「BEHAVIOR Vision Suite (BVS) 」を発表しました。この論文は CVPR 2024 ハイライトも受賞しました。
コンピュータービジョンの分野では、さまざまな条件下でのモデルのパフォーマンスを体系的に評価し理解するには、定量的なデータと包括的でカスタマイズされたラベルが必要です。ただし、現実世界のビジュアル データセットは、これらのニーズを満たすのに苦労することがよくあります。 AI タスクなどの有望な代替手段は有望ですが、リソースとレンダリングの品質、データの多様性、物理的特性の現実性の点でまだ多くの欠点があります。
これらの問題を解決するために、研究チームは「BEHAVIOR Vision Suite (BVS)」を立ち上げました。
BVS は、コンピューター ビジョン モデルの体系的な評価のために設計されたツールとリソースのセットです。 BVS は、新しく開発された AI ベンチマーク BEHAVIOR-1K に基づいて、シーン レベル (照明、オブジェクトの配置など)、オブジェクト レベル (関節構成、属性など)、カメラ レベル (視野、焦点距離など) をカバーするパラメーターを調整できます。 )。 研究者は、データ収集中にこれらのパラメーターを調整して、実験をさらに正確に制御できます。
このモデルは、環境パラメーターの継続的な変化に対するロバストネスにおける視覚モデルのパラメーター制御評価を含む、さまざまなモデル評価およびトレーニング アプリケーションにおける BVS の利点も示しています。 、シーン理解モデルの体系的な評価 (豊富な視覚的注釈) と新しい視覚タスクのモデル トレーニング
BVSには、データ部分と、このカスタマイズ可能なデータジェネレーターに基づく
データ部分の2つの部分が含まれています。
BVS のデータ部分は、51 人のアーティストによってデザインされた合計 8841 個の 3D オブジェクト モデルと屋内シーンを含む、BEHAVIOR-1K のアセットに基づいて拡張され、これらのモデルとシーンは 1000 個のシーン インスタンスに拡張されています。研究チームは、ユーザーがより強化されたシーン インスタンスを自動的に生成できるようにするスクリプトも提供しています
カスタマイズ可能なデータ ジェネレーター
。ユーザーは、BVS のデータ部分を簡単に使用して、暗い光の下での屋内シーンなどの画像データセットのニーズを満たすことができます 。 BVS は、要件を満たしながら、その忠実性と物理的合理性を確保しながら、生成されたデータセットに高い意味論的多様性を持たせることができます。具体的には、ユーザーは、カメラの位置、照明、オブジェクトのプロパティ (サイズなど)、オブジェクトのステータス (オン、オフなど)、オブジェクト間の空間関係の 5 つの側面を制御できます。 研究者らは、以下を含む 3 つのアプリケーションシナリオで BVS によって生成されたデータの操作を実証しました。 パラメータは、環境パラメータが連続的に変化するときの視覚モデルのロバスト性を制御可能に評価します 特定の次元で継続的に変化するデータを生成することにより、研究者はここで視覚モデルのロバストネスを体系的に評価します。たとえば、同じシーン内でオブジェクトのオクルージョンの程度が徐々に増加するデータが生成され、部分的にオクルージョンされたオブジェクトの下での視覚モデルのパフォーマンスが評価されます。 研究者らは、さまざまな SOTA モデルを評価することにより、共通分布外のデータでは既存のモデルのパフォーマンスが依然として低いことを発見しました。これらのデータは現実世界では取得したりラベル付けしたりすることが難しいため、実際の画像データ セットからこれらの結論を直接導き出すことは困難です。したがって、BVS は、研究者が関心のある条件下でモデルの堅牢性を評価し、モデルをより適切に開発および改善するのに役立ちます。 既存のSOTAモデルには、変化する条件(カメラの仰角など)下での堅牢性を向上させる余地がまだあります 5つの環境パラメータが連続的に変化するときのさまざまな検出モデルのパフォーマンス シーン理解モデルの評価 BVS によって形成されたデータセットのもう 1 つの特徴は、深さ、セマンティック セグメンテーション、ターゲット ボックスなどのマルチモーダルな実ラベルが含まれていることです。これにより、研究者は BVS によって生成されたデータを使用して、同じ画像上のさまざまなタスクの予測モデルを評価できるようになります。 研究チームは、オープンワードの検出とセグメンテーション、深度推定、点群再構成の 4 つのタスクについて SOTA モデルを評価し、BVS データセットでのモデルのパフォーマンスが実際のデータ ベンチマークでのパフォーマンスと一致していることを発見しました。対応するタスクの。これは、BVS によって生成された高品質のデータが現実世界のデータを真に反映し、表現していることを示しており、研究者らはそのようなデータセットがマルチタスク予測モデルの開発を促進できることを期待しています。 オープンソース コードでは、研究チームはユーザーがシーン内の軌跡をサンプルするのを容易にするスクリプトも提供しています。 研究者らは、シーン理解モデル 全体的なシーン理解データセットを評価するために、多くのシーン閲覧ビデオ⽤を収集しました。研究者らは、代表的なシーンで多数のトラバース ビデオを生成し、それぞれに 10 を超えるカメラの軌跡が含まれていました。画像ごとに、BVS はさまざまなラベル (シーン マップ、セグメンテーション マスク、深度マップなど) を生成します BVSデータ上のSOTAモデルの相対的なパフォーマンス順序は実際のタスクベンチマークと一致しています 新しいビジョンタスクモデルのトレーニング BVSのデータ貢献はモデル評価に限定されません、ただし、現実のシナリオで使用するのが難しい人向けにもなります。データの収集またはラベル付けのタスクでは、BVS データをモデルのトレーニングに使用することもできます。 著者は BVS を使用して 12.5k の画像を生成し、オブジェクトの空間関係と状態予測モデルをトレーニングするためにのみ使用しました。このモデルは、トレーニングに実際のデータを使用せずに、実際のシナリオで 0.839 の F1 スコアを達成しました。これは、シミュレーションから実際への優れた転送機能を反映しています。 シミュレートされたトレーニングデータセットと実際のテストデータセットの図例 BVSによって生成されたデータを使用して、オブジェクトの空間関係と状態予測モデルをトレーニングします BVS は強力なツールとリソースのセットを提供し、コンピューター ビジョン研究者がカスタマイズされた合成データ セットを生成するための新しい方法を提供します。 データ生成プロセスにおけるさまざまなパラメーターを体系的に制御および調整することで、研究者はコンピューター ビジョン モデルのパフォーマンスをより包括的に評価および改善し、将来の研究と応用のための強固な基盤を築くことができます。 アプリケーションシナリオ
概要
以上がLi Feifei の「Spatial Intelligence」シリーズの新たな進歩、Wu Jiajun チームの新しい「BVS」スイートがコンピュータ ビジョン モデルを評価の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。