AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Lei Jiahui、ペンシルベニア大学コンピューターサイエンス学部博士課程学生 (2020 - 現在)、彼の指導教員は現在の主任教授である Kostas Daniilidis です。研究の方向性は、4 次元の動的シーンの幾何学モデリング表現とアプリケーションを使用したアルゴリズムです。彼は、主要なコンピューター ビジョンおよび機械学習カンファレンス (CVPR、NeurIPS、ICML、ECCV) で筆頭著者または共著者として 7 つの論文を発表しました。彼の以前の学位(2016 ~ 2020 年)は、浙江大学制御学部と朱科鎮学院混合クラスを専攻分野を首席で卒業しました。
任意の単眼ビデオからレンダリング可能な動的シーンを再構築することは、コンピューター ビジョン研究における聖杯です。この論文では、ペンシルベニア大学とスタンフォード大学の研究者チームが、この目標に向けて小さな一歩を踏み出そうと試みています。
インターネット上には、物理世界に関する大量の情報を含む大量の単眼ビデオがあります。しかし、3D ビジョンには、将来の 3D 大型モデルのモデリングとダイナミックの理解をサポートするために、これらのビデオから 3D ダイナミック情報を抽出する効果的な手段がまだありません。物理的な世界。重要ではありますが、この逆問題は非常に困難です。
まず、現実の 2D ビデオにはマルチビュー情報が欠けていることが多いため、マルチビュー ジオメトリを 3D 再構成に使用することはできず、多くの場合、既存のソフトウェアでカメラのポーズや内部パラメーターを解決することさえ不可能です。コルマップなど)。
第二に、動的シーンの自由度は非常に高く、その変形と長期情報融合の四次元表現はまだ未熟であり、この困難な逆問題をさらに複雑にしています。
この記事は新しい神経情報処理システム - MoScaを提案します。これは追加情報なしで一連のビデオフレーム画像を提供するだけでよく、SORAからビデオ、映画、テレビシリーズのクリップを生成し、レンダリング可能な動的データを再構築できます。の単眼野外ビデオ、インターネット ビデオ、および公開データセットのシーン。
方法の概要
上記の困難を克服するために、Mosca はまずコンピューター ビジョン基盤モデルに保存されている強力な事前知識を利用して、問題解決スペースを削減しました。
具体的には、Mosca は単眼メトリック深度推定 (モノラル メトリック深度) モデル UniDepth、ビデオ任意点長期追跡 (任意の点を追跡) モデル CoTracker、およびオプティカル フロー推定 (オプティカル フロー) を使用します。モデル RAFT によって計算された幾何学的誤差 (エピポーラ誤差)、および事前トレーニングされたセマンティック モデル DINO-v2 によって提供されるセマンティック特徴。詳細については、この論文の第 3.1 章を参照してください。実際の動的変形のほとんどは本質的にコンパクトで疎であり、その複雑さは実際の幾何学的構造よりもはるかに低いことがわかります。例えば、硬い物の動きは回転と平行移動で表現でき、人の動きは複数の関節の回転と平行移動で大まかに近似できます。
この観察に基づいて、この記事では、
斬新でコンパクトな動的シーン表現 - 4D Motion Scaffoldを提案します。これは、上記の基礎となるモデルの出力を 2 次元から 4 次元にアップグレードして融合すると同時に、物理学に基づく変形正則化 (ARAP) も統合します。 。 4 次元運動足場はグラフです。グラフの各ノードは剛体運動 (SE (3)) の軌跡の列です。グラフのトポロジーは剛体間の距離を考慮して構築された最近接エッジです。モーション軌跡はグローバルに曲がります。空間内の任意の点での変形は、デュアル四元数を使用して時空間内で補間されたグラフ上のノードの剛体軌道を滑らかにすることによって表現できます。この表現により、解決する必要がある運動パラメータが大幅に簡素化されます。 (詳細については、この論文の第 3.2 章を参照してください)。 4 次元モーション スキャフォールドのもう 1 つの大きな利点は、単眼の深さとビデオの 2 次元点追跡によって直接初期化できることです。その後、未知のオクルージョン ポイントの位置とローカル座標系の方向を効率的な手法で解決できることです。物理的な定期期間の最適化。詳細については、論文の 3.3 章を参照してください。 4 次元モーション スキャフォールディングを使用すると、いつでも任意の点を任意の目標時間に変形させることができ、観測情報をグローバルに融合することができます。具体的には、ビデオの各フレームは、推定された深度マップを使用して 3 次元空間に逆投影され、3 次元ガウス (3DGS) で初期化されます。これらのガウスは 4 次元の運動足場に「結合」されており、いつでも自由に往復できます。特定の瞬間のシーンをレンダリングしたい場合は、他のすべてのグローバル モーメントのガウスを、融合用の 4 次元足場を介して現在の瞬間に転送するだけで済みます。 4 次元モーション スキャフォールディングとガウスに基づくこの動的なシーン表現は、ガウス レンダラーによって効率的に最適化できます (詳細については、この論文の第 3.4 章を参照)。 最後に、Mosca はカメラの内部パラメータと外部パラメータを必要としないシステムであることに言及する価値があります。前述のコーナーストーン モデルによって出力されたエピポーラ ジオメトリ エラーを使用して静的背景マスクを決定し、コーナーストーン モデルによって出力された深度およびポイント トラッキングを使用することにより、Mosca は再投影誤差を効率的に最適化し、グローバル バンドル調整を解決して直接出力することができます。カメラの内部パラメータとポーズを調整し、その後のレンダリングを通じてカメラの最適化を続けます (詳細については、この論文の第 3.5 章を参照してください)。 実験結果 Mosca は、DAVIS データセット ビデオ内の動的なシーンを再構築できます。 Mosca が複数のガウスベースのレンダラーを柔軟にサポートしていることは注目に値します。この記事では、ネイティブ 3DGS レンダラーに加えて、最近のガウス サーフェス再構成レンダラー GOF (ガウス オパシティ フィールド) もテストしました。図の右端のトレインに示されているように、GOF はより高品質の法線と深度をレンダリングできます。 Moska は、困難な IPhone DyCheck データセットで大幅な改善を達成すると同時に、広く比較可能な Nvidia データセットで他の手法も比較しました。
以上が本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。