写真は 2 枚だけです。、追加のデータを測定する必要はありません。——
Dangdang、完全な 3D クマがそこにあります:
##DUSt3R というこの新しいツールは非常に人気があり、公開されて間もなく GitHub ホット リストで 2 位にランクされました。 ##。
ネチズンは実際にテストを行い、写真を 2 枚撮り、プロセス全体を実際に再現しました必要な作業は少なくなります2 秒以上 ! (3D 画像に加えて、深度マップ、信頼度マップ、点群画像も提供できます)
これはすごい友人はこう言わなければなりません:
みんな
soraのことは忘れてください
まず、これは私たちが実際に見て触れることができるものです。# 実験では、DUSt3R が単眼/多視点深度推定と相対姿勢推定の 3 つのタスクで SOTA を達成することを示しています。
著者チーム (フィンランド、アアルト大学、NAVER LABS人工知能研究所欧州支部より)
の「マニフェスト」も勢いに満ちています:私たちは、世界から難しい 3D ビジュアル タスクを必要としないようにすることです。
それでは、どうやって行うのでしょうか?マルチビュー ステレオ再構成「オールインワン」
(MVS)
タスクの最初のステップは、内部パラメータと内部パラメータを含むカメラ パラメータを推定することです。外部パラメータ。 この操作は退屈で面倒ですが、後続の 3 次元空間内のピクセルの三角形分割には不可欠であり、これはパフォーマンスが向上するほぼすべての MVS アルゴリズムの切り離せない部分です。この記事の研究において、著者のチームによって導入された DUSt3R は、まったく異なるアプローチを採用しました。
It は、カメラのキャリブレーションや視点姿勢に関する事前情報を必要とせず、任意の画像の高密度または制約のない 3D 再構成を完了できます。 ここで、チームはペアワイズ再構成問題をポイントプロット回帰として定式化し、単眼と両眼の再構成状況を統合します。3 つ以上の入力イメージが提供される場合、ポイント イメージのすべてのペアは、シンプルで効果的なグローバル アライメント戦略を通じて共通の参照フレームに表現されます。 下の図に示すように、未知のカメラ ポーズと固有の特徴を持つ写真のセットが与えられると、DUSt3R は対応するポイント マップのセットを出力します。そこから、通常は推定が難しいさまざまな幾何学量を直接復元できます。カメラパラメータ、ピクセル対応、深度マップ、完全に一貫した 3D 再構築効果など。
(著者は、DUSt3R が単一の入力画像にも適用できることを思い出させます)特定のネットワーク アーキテクチャに関して言えば、DUSt3R
Standard Transformer エンコーダおよびデコーダに基づいており、CroCo (ビュー全体にわたる 3D ビジョン タスクの自己教師あり事前トレーニングに関する研究)
からインスピレーションを得て採用されました。単純な回帰損失トレーニングが完了しました。下の図に示すように、シーンの 2 つのビュー (I1, I2) は、最初に共有 ViT エンコーダーを使用して Siamese (Siamese) モードでエンコードされます。 。
結果のトークン表現(F1 および F2)
は、クロス アテンションを渡す 2 つの Transformer デコーダーに渡されます。 情報は常に交換されます。 。#最後に、2 つの回帰ヘッドは 2 つの対応点マップと関連する信頼度マップを出力します。 重要な点は、両方のポイント マップが最初のイメージと同じ座標系で表される必要があるということです。
実験では、まず 7Scenes (7 つの屋内シーン) および Cambridge Landmarks (8 つの屋外シーン) データセットで DUST3R のパフォーマンスを評価します。絶対姿勢推定タスクの場合、指標は平行移動誤差と回転誤差 (値が小さいほど優れています) です。
著者は、他の既存の特徴マッチングやエンドツーエンドの手法と比較して、DUSt3R のパフォーマンスは顕著であると述べています。
なぜなら、視覚的な位置決めのトレーニングを一度も受けたことがなく、第二に、トレーニング プロセス中にクエリ画像やデータベース画像に遭遇したことがないからです。
2 番目は、10 個のランダムなフレームに対して実行されるマルチビュー ポーズ回帰タスクです。結果 DUST3R は両方のデータセットで最高の結果を達成しました。
単眼の深度推定タスクでは、DUSt3R は屋内および屋外のシーンも適切に保持でき、自己教師ありベースラインよりも優れたパフォーマンスを発揮しますが、最先端の教師ありベースラインとは異なります。 . 上下。
マルチビュー深度推定の点でも、DUSt3R のパフォーマンスは優れています。
以下は、2 つの担当者グループによって与えられた 3D 再構成効果です。雰囲気を伝えるために、入力した画像は 2 つだけです:
(1 )
(2)
はい ネットユーザーが DUST3R に重複するコンテンツのない 2 つの画像を提供したところ、数秒以内に正確な 3D ビューが出力されました。
(写真は彼のオフィスなので、トレーニング中に見たことはないと思います)
これに対して、一部のネチズンは、これはつまり、 「客観的な測定」を行い、代わりに AI のように動作します。
さらに、入力画像が 2 つの異なるカメラで撮影された場合でもこの方法が有効かどうかを知りたい人もいます ?
一部のネチズンが実際に試してみたところ、答えは yes!
ポータル:
[1]論文 https://arxiv.org/abs/2312.14132
[2]コード https://arxiv.org/abs/2312.14132 ://github.com/naver/dust3r
以上が2 枚の写真を 2 秒で 3D 再構成!この AI ツールは GitHub で人気です、ネチズンはソラのことは忘れてくださいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。