プロジェクトリンク: https://nianticlabs.github.io/mickey/
2 つの画像が与えられた場合、画像間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。
この記事では、3 次元カメラ空間でのメトリックの対応を予測できるキー ポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、深度テストを行わずにメトリクスの相対姿勢を推測できます。また、トレーニング中に深度テスト、シーンの再構成、または画像のオーバーラップ情報も必要ありません。 MicKey は、画像のペアとその相対的なポーズによってのみ監視されます。 MicKey は、他の競合する方法よりも少ない監視を必要としながら、マップフリーの再ローカリゼーション ベンチマークで最先端のパフォーマンスを実現します。
「メトリック + キーポイント (MicKey) は 2 つの問題を解決する特徴検出プロセスです。まず、MicKey はカメラ空間内のキーポイントの位置を回帰します。これにより、記述子のマッチングを通じてメトリックの対応関係を確立できます。メトリックからの対応では、メトリックの相対図 1 に示すように、ポーズは復元できます。第 2 に、エンドツーエンドのトレーニングに微分可能なポーズの最適化を使用することで、MicKey はトレーニング プロセス中に監視なしで画像ペアとその真の相対的なポーズのみを必要とします。キーポイントの深さを暗黙的に、正確に検出された特徴領域に対してのみ取得します。私たちのトレーニング プロセスは、未知の視覚的オーバーラップを持つ画像のペアに対して堅牢であるため、SFM によって取得される情報 (画像のオーバーラップなど) は必要ありません。MicKey は非常にアクセスしやすくなります。新しいドメインでのトレーニングにはポーズ以外の追加情報が必要ないため、魅力的です。 MicKey は、特に疎な特徴のマッチングを対象とした深度予測によってサポートされる、極端な視野角変化下でも信頼性の高いスケールメトリック姿勢推定を提供します。この精度によってサポートされる極端な視野角変化下での変形マッチングにより、MicKey は、特に疎な特徴のマッチングのための深度予測によってサポートされる深度推定マッチングに必要な深度推定をサポートするのに最適になります。
主な貢献は次のとおりです:
MicKey は、単一の画像から重要なポイントを予測し、それらを記述することができるニューラル ネットワークです。このような記述子により、画像間のメトリック相対姿勢の推定が可能になります。
このトレーニング戦略では、相対的な姿勢のモニタリングのみが必要で、深さの測定は必要なく、画像ペアのオーバーラップに関する知識も必要ありません。
MicKey の紹介3D キーポイントの座標、信頼度、記述子を学習するには、システムが完全に微分可能である必要があります。ただし、キーポイント サンプリングやインライア カウントなど、パイプライン内の一部の要素は微分可能ではないため、相対姿勢推定パイプラインは確率的として再定義されます。これは、ネットワークの出力を潜在的な一致の確率として扱い、トレーニング中にネットワークがその出力を最適化して、正しい一致が選択される可能性が高くなるような確率を生成することを意味します。
2) ネットワーク構造エンコーダー。事前トレーニングされた DINOv2 モデルを特徴抽出器として採用し、さらなるトレーニングや微調整を行わずにその機能を直接使用します。 DINOv2 は、入力画像をサイズ 14×14 のブロックに分割し、各ブロックに特徴ベクトルを提供します。最終的な特徴マップ F の解像度は (1024, w, h) です。ここで、w = W/14、h = H/14 です。
重要なポイントは頭です。ここでは 4 つの並列ヘッドが定義されており、特徴マップ F を処理し、マップの各エントリが入力 A 14 に対応する xy オフセット (U)、深度 (Z)、信頼度 (C)、および記述子 (D) マップを計算します。画像の×14ブロック。 MicKey には、疎な規則的なグリッドからの相対オフセットとしてキーポイントを予測するという珍しい特性があります。絶対 2D 座標は次のように取得されます:
マップフリー データセットでの相対姿勢評価。 90 ピクセルのしきい値での VCRE メトリクスの曲線下面積 (AUC) と精度 (Preci.) の値が報告され、MicKey の両方のバージョンで最高の結果が得られます。さらに、中央値誤差も報告され、MicKey は VCRE 誤差に関して最低値を取得しますが、RoMa などの他の方法ではより低いポーズ誤差が得られます。中央値誤差を計算するために、ベースラインは各メソッドによって生成された有効なポーズのみを使用するため、ポーズの推定総数を報告します。最後に、マッチング時間が報告され、MicKey は LoFTR および LighGlue に匹敵し、VCRE メトリクスの点で MicKey に最も近い競合である RoMa の時間を大幅に短縮していることがわかりました。マッチング方法では、DPT を使用してスケールを復元します。
MicKey によって生成された対応するポイント、スコア、深度マップの例。 MicKey は、大規模な変更や幅広いベースラインが存在する場合でも、効果的な対応点を見つけます。特徴エンコーダーにより、深度マップの解像度は入力画像の 14 分の 1 であることに注意してください。 DPT で使用される深度マップ視覚化方法に従っています。明るい色は近い距離を表します。
ScanNet データセット上の相対姿勢評価。すべての特徴マッチング方法は、PlaneRCNN と組み合わせて使用され、メトリック スケールを回復します。各メソッドのトレーニング信号、深さ (D)、オーバーラップ スコア (O)、ポーズ (P) を示します。
以上がオックスフォード大学の最新情報!ミッキー:2D画像を3D SOTAでマッチング! (CVPR\'24)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。