CVPR 24｜チューリッヒ工科大学とその他のチーム: 小規模サンプルの 3D セグメンテーションタスクを再定義することで、新しいベンチマークにより幅広い改善の可能性が開かれます。-AI-php.cn

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の筆頭著者、An Zhaochong は現在、セルジュ・ベロンジーの指導の下、コペンハーゲン大学で博士号取得を目指して勉強しています。彼はチューリッヒ工科大学を修士号を取得して卒業し、修士号を取得している間、指導者であるリュック・ヴァン・グール氏の研究室で複数の研究プロジェクトに参加しました。彼の主な研究対象には、シーン理解、少数ショット学習、マルチモーダル学習などがあります。

3D シーンの理解により、人型ロボットが周囲のシーンを「見る」ことが可能になり、車の自動運転機能が運転中に起こり得る状況をリアルタイムで認識できるようになり、よりインテリジェントな行動や反応が可能になります。これらすべてを行うには、多数の 3D シーンに詳細な注釈を付ける必要があり、時間コストとリソース投資が大幅に増加します。

最近、チューリッヒ工科大学と他のチームは、この制限を大幅に改善する数ショット学習方法を提案し、現在の FS-PCS タスクを再検討し、優れた基盤を提供するために 3D シーン認識の分野に新しいベンチマークを導入しました。未来に向けてモデルの設計と開発が新境地を開拓します。

ペーパーリンク: https://arxiv.org/abs/2403.00592
コードリンク: https://github.com/ZhaochongAn/COSeg

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！

^{3D 少数ショットセグメンテーション結果の例}

技術的背景

3D シーンの理解は、自動運転やインテリジェントロボットなどの分野で重要な役割を果たします。これにより、デバイスが周囲を認識して理解できるようになります。 -次元の世界。従来の完全教師あり学習モデルは特定のカテゴリの認識では良好に機能しますが、これらのモデルは多くの場合、これらの事前定義されたカテゴリの識別に限定されます。これは、新しいオブジェクトカテゴリを認識する必要がある場合は常に、大量の 3D シーンデータを収集して詳細に注釈を付ける必要があることを意味します。このプロセスは時間と労力がかかるだけでなく、完全監視の適用を大幅に制限します。現実世界のモデルのアプリケーションの幅広さと柔軟性。

しかし、数ショット学習法の助けを借りて、この状況は大幅に改善されました。フューショット学習は、新しいカテゴリに迅速に適応するために、ラベル付きサンプルをほとんど必要としない手法です。これは、モデルが少数の例で新しい環境を迅速に学習して適応できることを意味し、データの収集と処理のコストを大幅に削減します。この高速かつ柔軟な学習方法により、3D シーン理解テクノロジーが急速に変化する現実世界により適応できるようになり、自動運転や高度なロボットシステムなどのさまざまなアプリケーションシナリオに新たな可能性が開かれます。したがって、数ショットの 3D モデルを研究することで、より広い世界で多くの重要なタスクの実用化を効果的に促進できます。

特に、フューショット 3D 点群セマンティックセグメンテーション (FS-PCS) タスクの場合、モデルの入力にはサポート点群と、新しいカテゴリ (サポートマスク) とクエリ点群の注釈が含まれます。モデルは、サポートポイントクラウドとサポートマスクを利用して新しいカテゴリに関する知識を取得し、それをセグメンテーションクエリ点群に適用して、これらの新しいカテゴリのラベルを予測する必要があります。モデルのトレーニングとテスト中に使用される ターゲットカテゴリは重複しません。これは、テスト中に使用されるカテゴリがすべて新しいカテゴリであり、トレーニング中にモデルによって認識されないことを保証するためです。审タスクの再検討と修正

図 1. 2 つのシーンの視覚化 (見通しは Door と BOARD)

W 表 1. 見込み漏れがない場合の過去モデルの有無 (W/FG) と性能 (W/O FG)

この記事では、現在の FS-PCS タスクを再検討します。現在のタスク設定には 2 つの重大な問題があることがわかりました:

1 つ目の問題は

前景漏れ

ベンチマークは過去のモデル
の実際の性能を反映することはできません。表 1 に示すように、現在の設定で前景漏れを修正した後、過去のモデルは大幅な性能低下を示しました。これは、過去のモデルが一見優れた少数ショット性能を達成するために濃度差に大きく依存していたことを示しています。 2 番目の問題は、疎なポイント分布です。現在の設定では、トレーニングとテスト中にモデルへの入力としてシーンから 2048 個のポイントのみをサンプリングします。このような疎なポイント分布により、入力シーンの明瞭度のセマンティクスが大幅に制限されます。図 1 に示すように、1 行 5 列目では、人間の目ではその領域内のセマンティックカテゴリドアと周囲のカテゴリウォールを区別するのが困難です。 2行目も対象領域がボードクラスなのかウィンドウなどの別クラスなのか区別がつきにくいです。これらのまばらな入力点群
には、非常に限られたセマンティクス情報
重大な曖昧さ
が導入され、シーン内のセマンティクスを効果的にマイニングするモデルの能力が制限されます。 そこで、著者は、これらの問題を修正するために、均一サンプリングを使用し、サンプリング点の数を10倍の20480点に増やすFS-PCSタスクを標準化するための新しい設定
を提案しました。図 1 の 3 列目に示されているように、新しい設定での入力には一貫したポイント分布とより明確なセマンティック情報があり、タスクが実際のアプリケーションシナリオに近づきます。

新しいモデル COSeg

新たに修正された設定の下で、著者は相関最適化セグメンテーション (COSeg) と呼ばれる新しいモデルを導入しました。以前の方法は、

特徴最適化パラダイムに基づいており、サポートまたはクエリの特徴を最適化し、改善された特徴をパラメーターフリー予測モジュールに入力して予測結果を取得することに焦点を当てており、これはサポートとクエリの間の暗黙的モデリングとみなすことができます。クエリ相関

。それどころか、この記事では、サポートとクエリの間の相関をパラメーターを使用してモジュールに直接入力し、モデルを直接整形できるようにする

相関最適化パラダイム
を提案しています。クエリとサポート関係の間の相関関係により、モデルの汎化能力が強化されます。

️図 2. COSeg アーキテクチャ

COSeg では、まず、各クエリポイントとサポートプロトタイプの間のクラス固有のマルチプロトタイプ相関 (CMC と呼ばれる) を計算します。これは、すべてのポイントとすべての関係を意味します。カテゴリ間プロトタイプ

。 CMC は、後続のハイパー相関拡張 (HCA) モジュールに入力されます。

HCA モジュールは、2 つの潜在的な関係を利用して相関関係を最適化します。まず、クエリポイントはすべて相互に関連しているため、カテゴリプロトタイプ間の相関にも関連しています。ここから、

ポイントとポイント

の間の関係を取得できます。これは、HCA の相関関係の前半に相当します。ポイントの寸法に注意してください。第 2 に、クエリポイントを前景クラスまたは背景クラスに分類することは、ポイントの前景プロトタイプと背景プロトタイプ間の相対相関に依存します。これにより、HCA の後半に対応する前景と背景の間の関係を取得できます。相関関係はカテゴリ次元で注目されます。

さらに、数ショットモデルは基本カテゴリでトレーニングされ、新規カテゴリでテストされるためです。これらのモデルは、テストシーンに存在するよく知られた基本カテゴリによって簡単に干渉され、新しいカテゴリのセグメンテーションに影響を与えます。この問題を解決するために、この記事では、基本カテゴリのパラメーターなしのプロトタイプ (基本プロトタイプと呼ばれる) を学習することを提案しています。 新しいクラスをセグメント化する場合、

基本クラスに属するクエリポイントは背景として予測される必要があります

。したがって、著者はベースプロトタイプを使用して、HCA レイヤー内にベースプロトタイプキャリブレーション (BPC) モジュールを導入して、ポイントカテゴリと背景カテゴリ間の相関を調整し、それによってベースクラスによって引き起こされる干渉を軽減します。

実験結果

CVPR 24｜ETH Zurich等团队：重新定义小样本3D分割任务，新基准开启广阔提升潜力！ coseg cosegメソッドの優れたパフォーマンスが、さまざまな少ないショットタスクで最良の結果を達成することを証明しました。この視覚化は、COSeg がより優れたセグメンテーション結果を達成していることも明確に示しています。さらに、著者は、設計の有効性と相関最適化パラダイムの優位性を証明するための広範なアブレーション実験も提供します。

概要

FS-PCSの分野におけるこの記事の研究の貢献は次のとおりです。

まず、著者らは、現在の FS-PCS 設定における 2 つの重要な問題 (前景漏洩と疎点分布) を特定し、これらは過去の手法と比較して評価ベンチマークの精度を低下させます。以前の設定の問題を解決するために、この記事では新しい標準化された設定と評価ベンチマークを紹介します

。

さらに、著者は、標準化された FS-PCS 設定の下で、少数ショットタスクにおけるモデルの汎化パフォーマンスを大幅に向上させる

新しい相関最適化パラダイム
を提案しています。この記事のモデル

COSeg は、HCA を組み合わせて効果的な点群相関情報をマイニングし、BPC を組み合わせてバックグラウンド予測を調整

し、すべての数ショットタスクで最高のパフォーマンスを実現します。

この記事で修正された

標準化された設定は、少数ショット 3D セグメンテーションタスクを改善するためのより多くの可能性を開きます
同時に、提案された

新しい相関最適化パラダイムは、将来のモデル設計と、開発

。 FS-PCS 分野の新しいベンチマークとして、この研究は、より多くの研究者に、小サンプル 3D シーンの理解の境界を探索し、拡大するよう促すことが期待されています。

参考として、この分野の発展をさらに促進するための潜在的な研究の方向性として次の点を使用できます:

記事の新しい設定では、COSeg が最高のパフォーマンスを達成していますが、プロトタイプ抽出方法 [1、2] の改善、相関最適化モジュール [3] の改善、各少数ショットのターゲット化など、モデルには改善の余地がまだたくさんあります。 -ショットタスク。

ベースカテゴリの干渉問題を解決することも、少数ショットのパフォーマンスに影響を与える重要な要素です。これは、トレーニングまたはモデル設計 [5,6] の観点から最適化して、ベースカテゴリの干渉をより適切に削減できます。

モデルのトレーニングと推論の効率を向上させます [7]。特に実際のアプリケーションに展開する場合、モデルの効率も重要な考慮事項です。

参考リンク:

[1] Lang、Chunbo、et al.「数ショットリモートセンシングセグメンテーションのためのプログレッシブ解析と共通性蒸留。」地球科学とリモートセンシングに関するIEEEトランザクション（2023） ).

[2] Liu、Yuanwei 他「ニューラル情報処理システムの進歩 35 (2022) のための中間プロトタイプマイニングトランスフォーマー」 ^{[3] Zhang、Canyu、他「階層化されたクラス固有の注意ベースのトランスフォーマーネットワークによる少数ショット 3D ポイントクラウドセマンティックセグメンテーション。」Proceedings of the AAAI Conference on Artificial Intelligence Vol. 3. .}

^{[4] Boudiaf、Malik、他「メタ学習を行わない少数ショットのセグメンテーション: 必要なのは優れた変換推論だけ?」コンピュータービジョンとパターンに関する IEEE/CVF 会議の議事録2021.}

[5] Wang、Jiahui 他「コントラスト自己監視と多重解像度アテンションによる少数ショット点群セマンティックセグメンテーション」 2023 IEEE International Conference on Robotics and Automation (ICRA) ). IEEE、2023.

[6] Lang、Chunbo、他「セグメント化すべきではないものを学ぶ: コンピュータービジョンと IEEE/CVF 会議の議事録」 2022.

[7] Sun、Yanpeng、他「特異値の微調整: 少数のショットのセグメンテーションは、神経情報処理システムの進歩を必要とする」(2022) ): 37484-37496.

以上がCVPR 24｜チューリッヒ工科大学とその他のチーム: 小規模サンプルの 3D セグメンテーションタスクを再定義することで、新しいベンチマークにより幅広い改善の可能性が開かれます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

CVPR 24｜チューリッヒ工科大学とその他のチーム: 小規模サンプルの 3D セグメンテーション タスクを再定義することで、新しいベンチマークにより幅広い改善の可能性が開かれます。

CVPR 24｜チューリッヒ工科大学とその他のチーム: 小規模サンプルの 3D セグメンテーションタスクを再定義することで、新しいベンチマークにより幅広い改善の可能性が開かれます。