ホームページ > テクノロジー周辺機器 > AI > ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

WBOY
リリース: 2024-03-25 15:11:18
転載
1004 人が閲覧しました

オブジェクトの姿勢推定は、身体化された知能、巧みなロボット操作、拡張現実など、多くの実世界のアプリケーションで重要な役割を果たします。

この分野で注目すべき最初のタスクは インスタンス レベルの 6D 姿勢推定で、これにはモデルのトレーニングのためにターゲット オブジェクトに関する注釈付きデータが必要です。深度モデルはオブジェクト固有であり、新しいオブジェクトに転送することはできません。その後、研究の焦点は徐々に カテゴリレベルの 6D 姿勢推定 に移りました。これは目に見えないオブジェクトを処理するために使用されますが、そのオブジェクトが既知のオブジェクトに属している必要があります。興味のあるカテゴリー。

そして ゼロサンプル 6D 姿勢推定 は、より一般化されたタスク設定であり、任意のオブジェクトの CAD モデルを指定して、シーン内のターゲット オブジェクトを検出することを目的としています。そしてその6D姿勢を推定します。その重要性にもかかわらず、このゼロショット タスク設定は、物体検出と姿勢推定の両方において大きな課題に直面しています。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

図 1. ゼロサンプル 6D オブジェクトの姿勢推定タスク

最近、すべてのモデルをセグメント化 SAM [1]は大きな注目を集めており、その優れたゼロサンプルセグメンテーション能力は目を引きます。 SAM は、ピクセル、バウンディング ボックス、テキスト、マスクなどのさまざまなキューを通じて高精度のセグメンテーションを実現します。これにより、ゼロサンプルの 6D オブジェクトの姿勢推定タスクに対する信頼性の高いサポートも提供され、その有望な可能性が実証されます。

そこで、Cross-Dimensional Intelligence、香港中文大学 (深セン)、華南理工大学の研究者は共同で、革新的なゼロサンプル 6D 物体姿勢推定フレームワーク SAM を提案しました。 -6D。この研究は CVPR 2024 に含まれています。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく


#

  • 論文リンク: https://arxiv.org/pdf/2311.15707.pdf
  • コードリンク: https://arxiv.org/pdf/2311.15707.pdf

://github.com/JiehongLin/SAM-6D

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくSAM-6D は、インスタンスのセグメンテーションとポーズを含む 2 つのステップを通じて、ゼロサンプルの 6D オブジェクトのポーズ推定を実現します。推定。したがって、任意のターゲット オブジェクトが与えられると、SAM-6D は 2 つの専用サブネットワーク、つまり

インスタンス セグメンテーション モデル (ISM) とポーズ推定モデル (PEM)

を利用して、RGB-D シーン イメージからターゲットを達成します。その中で、ISM は SAM を優れた出発点として使用し、慎重に設計されたオブジェクト マッチング スコアと組み合わせて、任意のオブジェクトのインスタンス セグメンテーションを実現します。PEM は、ローカル対ローカルの 2 段階の点セット マッチング プロセスを通じてオブジェクトの姿勢問題を解決します。 SAM-6Dの概要を図2に示します。

図 2. SAM-6D の概要
  • 一般的に、SAM-6D テクノロジの貢献は次のとおりです。
  • SAM-6D は、CAD を使用して RGB-D 画像から RGB-D 画像を生成できる革新的なゼロサンプル 6D 姿勢推定フレームワークです。あらゆるオブジェクトのモデルを作成し、ターゲット オブジェクトのインスタンス セグメンテーションと姿勢推定を実行し、BOP [2] の 7 つのコア データセットで優れたパフォーマンスを発揮します。
  • SAM-6D は、すべてのセグメンテーション モデルのゼロショット セグメンテーション機能を活用して、考えられるすべての候補オブジェクトを生成し、ターゲット オブジェクトに対応するオブジェクトを識別するための新しいオブジェクト マッチング スコアを設計します。候補者。

SAM-6D は、姿勢推定をローカル間の点集合のマッチング問題と見なし、シンプルだが効果的なバックグラウンド トークン設計を採用し、任意のオブジェクトに対する 2 次元アルゴリズムを提案します。ステージ点セット マッチング モデル。第 1 ステージでは粗い点セット マッチングを実装して初期オブジェクト ポーズを取得し、第 2 ステージでは新しい疎点セットから高密度点セットへの変換を使用して細かい点セット マッチングを実行し、ポーズをさらに最適化します。

インスタンス セグメンテーション モデル (ISM)

SAM-6D は、インスタンス セグメンテーション モデル (ISM) を使用して、任意のオブジェクトを検出してセグメント化します。マスク。

RGB イメージで表される乱雑なシーンを考慮して、ISM はセグメンテーション エブリシング モデル (SAM) のゼロショット転送機能を活用して、考えられるすべての候補を生成します。 ISM は候補オブジェクトごとにオブジェクト一致スコアを計算し、セマンティクス、外観、ジオメトリの観点からターゲット オブジェクトとどの程度一致しているかを推定します。最後に、一致しきい値を設定するだけで、ターゲット オブジェクトに一致するインスタンスを識別できます。 ############オブジェクト一致スコアは、3 つの一致項目の加重合計によって計算されます:######

セマンティック マッチング アイテム - ターゲット オブジェクトについて、ISM は複数の観点からオブジェクト テンプレートをレンダリングし、DINOv2 [3] の事前トレーニング済み ViT モデルを使用して候補オブジェクトとオブジェクト テンプレートを抽出します。そしてそれらの間の相関スコアを計算します。意味的一致スコアは、上位 K 個の最高スコアを平均することによって取得され、最も高い相関スコアに対応するオブジェクト テンプレートが最も一致するテンプレートとみなされます。

外観マッチング項目 ——最適にマッチングするテンプレートについては、ViT モデルを使用して画像ブロックの特徴を抽出し、それと画像のブロック特徴の間の相関を計算します。これにより、意味的に類似しているが外観が異なるオブジェクトを区別するために使用される外観一致スコアが得られます。

幾何学的一致 - さまざまなオブジェクトの形状やサイズの違いなどの要因を考慮して、ISM は幾何学的一致スコアも設計しました。最もよく一致するテンプレートと候補オブジェクトの点群に対応する回転の平均により、大まかなオブジェクトのポーズが得られ、このポーズを使用してオブジェクト CAD モデルを剛体変換および投影することにより、バウンディング ボックスを取得できます。境界ボックスと候補境界ボックスの間の交差対和集合 (IoU) 比を計算すると、幾何学的マッチング スコアを取得できます。

姿勢推定モデル (PEM)

ターゲット オブジェクトと一致する各候補オブジェクトに対して、SAM-6D は姿勢推定モデル (PEM) を利用します。 ) ) を使用して、オブジェクトの CAD モデルを基準にして 6D 姿勢を予測します。

セグメント化された候補オブジェクトとオブジェクト CAD モデルのサンプリング ポイント セットをそれぞれ ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく として表します。 N_m と N_o はそれらの点の数を表し、同時にこれら 2 つの点セットの特徴は ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく として表され、C はその数を表します機能のチャンネル数。 PEM の目的は、P_m から P_o までのローカル間対応を表す割り当て行列を取得することです。オクルージョンにより、P_o は P_m と部分的にのみ一致し、セグメンテーションの不正確さとセンサー ノイズにより、P_m は部分的にのみ一致します。 部分的 AND 一致ぽ。

2 つの点セット間で重複しない点を割り当てる問題を解決するために、ISM にはそれぞれのバックグラウンド トークンが装備されており、ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく および ## として記録されます。 ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく#、すると、特徴の類似性に基づいて、ローカル間の対応を効果的に確立できます。具体的には、まず注目行列を次のように計算できます。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

次に、分布行列を取得できます

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく はそれぞれ行と列に沿ったソフトマックス演算を表し、ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく は定数を表します。 ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく の各行の値 (最初の行を除く) は、点集合 P_m 内の各点 P_m と背景および P_o の中点との一致確率を表します。スコアを取得すると、P_m (背景を含む) に一致するポイントを見つけることができます。

計算結果が得られたら、すべてのマッチング ポイント ペア {(P_m,P_o)} とそのマッチング スコアを収集し、最終的に重み付き SVD オブジェクト姿勢を使用して計算できます。 ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

図 3. SAM-6Dゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

の姿勢推定モデル (PEM) の概略図

バックグラウンド トークンに基づく上記の戦略を使用して、PEM で 2 つの点セット マッチング ステージが設計されています。モデル構造は図 3 に示されています。特徴抽出、大まかな点セット マッチング、および詳細な点セットが含まれます。 3 つのモジュールに一致します。

ラフ点セット マッチング モジュールは、スパース対応を実装してオブジェクトの初期ポーズを計算し、このポーズを使用して候補オブジェクトの点セットを変換し、位置エンコード学習を実現します。

詳細点セット マッチング モジュールは、候補オブジェクトとターゲット オブジェクトのサンプリング点セットの位置エンコーディングを組み合わせて、第 1 段階で大まかな対応関係を注入し、さらに確立します。より正確なオブジェクトのポーズを取得するための密な対応関係。この段階で密な相互作用を効果的に学習するために、PEM は新しい疎から密への点集合変換器を導入します。これは、密な特徴の疎なバージョンで相互作用を実装し、線形変換器 [5] を利用して強化された疎な特徴を拡散に変換して密な特徴に戻します。特徴。

実験結果

SAM-6D の 2 つのサブモデルでは、インスタンス セグメンテーション モデル (ISM) が SAM とネットワークは再トレーニングされ、微調整されますが、姿勢推定モデル (PEM) は、MegaPose [4] によって提供される大規模な ShapeNet-Objects および Google-Scanned-Objects 合成データセットを使用してトレーニングされます。

ゼロサンプル機能を検証するために、SAM-6D は、LM-O、T-LESS、TUD-L、IC を含む BOP [2] の 7 つのコア データ セットでテストされました。 -BIN、ITODD、HB、YCB-V。表 1 と表 2 は、これら 7 つのデータセットに対するさまざまな方法によるインスタンスのセグメンテーションと姿勢推定の結果の比較をそれぞれ示しています。他の手法と比較して、SAM-6D は両方の手法で非常に優れたパフォーマンスを発揮し、その強力な汎化能力を十分に実証しています。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

#表 1. BOP 7 つのコア データ セットに対するさまざまな方法のインスタンス セグメンテーション結果の比較

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

表 2. BOP の 7 つのコア データ セットに対するさまざまな方法の姿勢推定結果の比較

図 4 は、BOP における SAM-6D のパフォーマンスを示しています。 7 3 つのデータセットに対する検出セグメンテーションと 6D 姿勢推定の視覚化結果。(a) と (b) はそれぞれテスト RGB 画像と深度マップ、(c) は指定されたターゲット オブジェクト、(d) と (e)はそれぞれ検出セグメンテーションと 6D ポーズの可視化結果です。

ゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づく

図 4. BOP の 7 つのコア データセットに対する SAM-6D の視覚化結果。

SAM-6D の実装の詳細については、元の論文をお読みください。

以上がゼロサンプル 6D 物体姿勢推定フレームワーク SAM-6D、身体化されたインテリジェンスに一歩近づくの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ai 6d
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート