多くの実際のアプリケーションでは、物体の姿勢推定は、身体化された知能、ロボット操作、拡張現実などの分野で重要な役割を果たします。
この分野で注目すべき最初のタスクは インスタンス レベルの 6D 姿勢推定です。これには、深度モデルをオブジェクト固有のプロパティにするためのモデル トレーニング用のターゲット オブジェクトに関する注釈付きデータが必要です。新しいオブジェクトに転送することはできません。その後、研究の焦点は徐々に カテゴリレベルの 6D 姿勢推定 に移りました。これは目に見えないオブジェクトを処理するために使用されますが、そのオブジェクトが既知の関心のあるカテゴリに属している必要があります。
および ゼロサンプル 6D ポーズ推定 は、より一般化されたタスク設定であり、任意のオブジェクトの CAD モデルが与えられた場合、シーン内のターゲット オブジェクトを検出し、その 6D ポーズを推定することを目的としています。その重要性にもかかわらず、このゼロショット タスク設定は、物体検出と姿勢推定の両方において大きな課題に直面しています。
[ 1] が注目を集めており、その優れたゼロサンプルセグメンテーション能力が目を引きます。 SAM は、ピクセル、バウンディング ボックス、テキスト、マスクなどのさまざまなキューを通じて高精度のセグメンテーションを実現します。これにより、ゼロサンプルの 6D オブジェクトの姿勢推定タスクに対する信頼性の高いサポートも提供され、その有望な可能性が実証されます。 したがって、新しいゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D が、Cross-Dimensional Intelligence、香港中文大学 (深セン)、および華南理工大学の研究者によって提案されました。この研究は CVPR 2024 によって認められました。
論文リンク: https://arxiv.org/pdf/2311.15707.pdf
コードリンク: https://github.com/JiehongLin/SAM-6D
SAM-6D は、インスタンス セグメンテーションと姿勢推定を含む 2 つのステップを通じて、ゼロサンプル 6D オブジェクトの姿勢推定を実装します。したがって、任意のターゲット オブジェクトが与えられると、SAM-6D は 2 つの専用サブネットワーク、つまり
インスタンス セグメンテーション モデル (ISM) とポーズ推定モデル (PEM)
全体として、SAM-6D の技術的貢献は次のように要約できます。
SAM-6D は、あらゆるオブジェクトの CAD を提供する革新的なゼロサンプル 6D 姿勢推定フレームワークです。このモデルは、RGB-D 画像からのターゲット オブジェクトのインスタンス セグメンテーションと姿勢推定を実装しており、BOP [2] の 7 つのコア データ セットに対して優れたパフォーマンスを発揮します。
SAM-6D は、すべてのセグメンテーション モデルのゼロショット セグメンテーション機能を活用して、考えられるすべての候補オブジェクトを生成し、ターゲット オブジェクトに対応するオブジェクトを識別するための新しいオブジェクト マッチング スコアを設計します。候補者。
SAM-6D は、姿勢推定をローカル間の点集合のマッチング問題と見なし、シンプルだが効果的なバックグラウンド トークン設計を採用し、任意のオブジェクトに対する 2 次元アルゴリズムを提案します。ステージ点セット マッチング モデル。第 1 ステージでは粗い点セット マッチングを実装して初期オブジェクト ポーズを取得し、第 2 ステージでは新しい疎点セットから高密度点セットへの変換を使用して細かい点セット マッチングを実行し、ポーズをさらに最適化します。
インスタンス セグメンテーション モデル (ISM)
SAM-6D は、インスタンス セグメンテーション モデル (ISM) を使用して、任意のオブジェクトのマスクを検出してセグメント化します。
RGB イメージで表される乱雑なシーンを考慮して、ISM はセグメンテーション エブリシング モデル (SAM) のゼロショット転送機能を利用して、考えられるすべての候補を生成します。 ISM は候補オブジェクトごとにオブジェクト一致スコアを計算し、セマンティクス、外観、ジオメトリの観点からターゲット オブジェクトとどの程度一致しているかを推定します。最後に、一致しきい値を設定するだけで、ターゲット オブジェクトに一致するインスタンスを識別できます。
オブジェクト一致スコアの計算は、3 つの一致項目の加重合計によって取得されます。
セマンティック一致項目 - ターゲット オブジェクトに対して、ISM は複数のビューをレンダリングします。オブジェクト テンプレートを使用し、DINOv2 [3] の事前トレーニング済み ViT モデルを使用して、候補オブジェクトとオブジェクト テンプレートの意味論的特徴を抽出し、それらの間の相関スコアを計算します。意味的一致スコアは、上位 K 個の最高スコアを平均することによって取得され、最も高い相関スコアに対応するオブジェクト テンプレートが最も一致するテンプレートとみなされます。
外観一致項目 - 最も一致するテンプレートについては、ViT モデルを使用して画像ブロック特徴を抽出し、それと候補オブジェクトのブロック特徴の間の相関を計算して、外観一致を取得します。 item スコア。意味的には似ているが視覚的に異なるオブジェクトを区別するために使用されます。
幾何学的一致 - ISM は、さまざまなオブジェクトの形状やサイズの違いなどの要因を考慮して、幾何学的一致スコアも設計しました。最もよく一致するテンプレートと候補オブジェクトの点群に対応する回転の平均により、大まかなオブジェクトのポーズが得られ、このポーズを使用してオブジェクト CAD モデルを剛体変換および投影することにより、バウンディング ボックスを取得できます。境界ボックスと候補境界ボックスの間の交差対和集合 (IoU) 比を計算すると、幾何学的マッチング スコアを取得できます。
姿勢推定モデル (PEM)
ターゲット オブジェクトと一致する各候補オブジェクトについて、SAM-6D は姿勢推定モデル (PEM) を利用して相対的な 6D を予測します。オブジェクトの CAD モデルのポーズ。
セグメント化された候補オブジェクトとオブジェクト CAD モデルのサンプリング点セットはそれぞれ と で表され、N_m と N_o はそれらの点の数を表し、同時にこれら 2 つの点セットの特性を表しますは および で表され、C は機能のチャネル数を表します。 PEM の目的は、P_m から P_o までのローカル間対応を表す割り当て行列を取得することです。オクルージョンにより、P_o は P_m と部分的にのみ一致し、セグメンテーションの不正確さとセンサー ノイズにより、P_m は部分的にのみ一致します。 部分的 AND 一致ぽ。
2 つの点セット間で重複しない点を割り当てる問題を解決するために、ISM は と のマークが付いたバックグラウンド トークンをそれらの点セットに装備します。これにより、ローカル間の関係をベースにして効果的に確立できます。機能の類似性について。具体的には、最初に注目行列を次のように計算できます。
次に、分布行列を取得できます
と はそれぞれ行と列に沿ったソフトマックス演算を表し、 は定数を表します。 の各行 (最初の行を除く) の値は、点集合 P_m 内の各点 P_m と背景および P_o の中点との一致確率を表します。最大スコアのインデックスを見つけることで、点集合 P_m と一致する点が決定されます。を見つけることができます(背景を含む)。
計算が になると、すべての一致点ペア {(P_m,P_o)} とその一致スコアが収集され、最後に重み付き SVD を使用してオブジェクトの姿勢が計算されます。
バックグラウンド トークンの戦略に基づいて、2 つの点セット マッチング ステージが PEM で設計されています。モデル構造は図 3 に示されており、3 つのステージが含まれていますモジュール: 特徴抽出、大まかな点セット マッチング、および詳細な点セット マッチング。
ラフ点セット マッチング モジュールは、スパース対応を実装してオブジェクトの初期姿勢を計算し、その姿勢を使用して候補オブジェクトの点セットを変換し、位置コーディング学習を実現します。 詳細点セット マッチング モジュールは、候補オブジェクトとターゲット オブジェクトのサンプル点セットの位置エンコーディングを組み合わせることで、第 1 段階で大まかな対応関係を注入し、さらに密な対応関係を確立して、より正確な対応関係を取得します。オブジェクトのポーズ。この段階で密な相互作用を効果的に学習するために、PEM は新しい疎から密への点集合変換器を導入します。これは、密な特徴の疎なバージョンで相互作用を実装し、線形変換器 [5] を利用して強化された疎な特徴を拡散に変換して密な特徴に戻します。特徴。 #########実験結果######
SAM-6D の 2 つのサブモデルの場合、インスタンス セグメンテーション モデル (ISM) はネットワークの再トレーニングや微調整を必要とせずに SAM に基づいて構築されますが、姿勢推定モデル (PEM) は MegaPose によって提供されます [4]トレーニング用の大規模な ShapeNet-Objects および Google-Scanned-Objects 合成データセット。
ゼロサンプル機能を検証するために、SAM-6D は、LM-O、T-LESS、TUD-L、IC-BIN、ITODD、HB を含む BOP [2] の 7 つのコア データ セットでテストされました。そしてYCB-V。表 1 と表 2 は、これら 7 つのデータセットに対するさまざまな方法によるインスタンスのセグメンテーションと姿勢推定の結果の比較をそれぞれ示しています。他の手法と比較して、SAM-6D は両方の手法で非常に優れたパフォーマンスを発揮し、その強力な汎化能力を十分に実証しています。
#表2.さまざまな方法の態度推定結果の比較BOP の 7 つのコア データ セットでの
#図 4 は、7 つの BOP データ セットでの SAM-6D の検出セグメンテーションと 6D 姿勢推定の視覚化結果を示しています。ここで (a) と (b)はそれぞれテスト RGB 画像と深度マップ、(c) は指定されたターゲット オブジェクト、(d) と (e) はそれぞれ検出セグメンテーションと 6D ポーズの視覚化結果です。
図 4. BOP の 7 つのコア データセットに対する SAM-6D の視覚化結果。 #SAM-6D の実装の詳細については、オリジナルの論文をお読みください。参考資料:
[1] Alexander Kirillov 他、「Segment anything」
[2] Martin Sundermeyer 他。 al.、「特定の剛体オブジェクトの検出、セグメンテーション、姿勢推定に関する Bop チャレンジ 2022」
[3] Maxime Oquab et. al.、「Dinov2 : 監視なしで堅牢な視覚機能を学習します。"
[4] Yann Labbe et. al.、「Megapose: レンダリングと比較による新規オブジェクトの 6D 姿勢推定」 .”
[5] Angelos Katharopoulos et. al.、「トランスフォーマーは rnns: 高速自己回帰
」 ##リニアな注目を集めるトランスフォーマー。」
以上がCVPR 2024 | ゼロサンプル 6D オブジェクト姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。