本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。-AI-php.cn

ホームページ

テクノロジー周辺機器

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2024 am 07:09 AM

業界神経情報処理システム

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Lei Jiahui、ペンシルベニア大学コンピューターサイエンス学部博士課程学生 (2020 - 現在)、彼の指導教員は現在の主任教授である Kostas Daniilidis です。研究の方向性は、4 次元の動的シーンの幾何学モデリング表現とアプリケーションを使用したアルゴリズムです。彼は、主要なコンピュータービジョンおよび機械学習カンファレンス (CVPR、NeurIPS、ICML、ECCV) で筆頭著者または共著者として 7 つの論文を発表しました。彼の以前の学位（2016 ～ 2020 年）は、浙江大学制御学部と朱科鎮学院混合クラスを専攻分野を首席で卒業しました。

任意の単眼ビデオからレンダリング可能な動的シーンを再構築することは、コンピュータービジョン研究における聖杯です。この論文では、ペンシルベニア大学とスタンフォード大学の研究者チームが、この目標に向けて小さな一歩を踏み出そうと試みています。

インターネット上には、物理世界に関する大量の情報を含む大量の単眼ビデオがあります。しかし、3D ビジョンには、将来の 3D 大型モデルのモデリングとダイナミックの理解をサポートするために、これらのビデオから 3D ダイナミック情報を抽出する効果的な手段がまだありません。物理的な世界。重要ではありますが、この逆問題は非常に困難です。

まず、現実の 2D ビデオにはマルチビュー情報が欠けていることが多いため、マルチビュージオメトリを 3D 再構成に使用することはできず、多くの場合、既存のソフトウェアでカメラのポーズや内部パラメーターを解決することさえ不可能です。コルマップなど）。
第二に、動的シーンの自由度は非常に高く、その変形と長期情報融合の四次元表現はまだ未熟であり、この困難な逆問題をさらに複雑にしています。

この記事は新しい神経情報処理システム - MoScaを提案します。これは追加情報なしで一連のビデオフレーム画像を提供するだけでよく、SORAからビデオ、映画、テレビシリーズのクリップを生成し、レンダリング可能な動的データを再構築できます。の単眼野外ビデオ、インターネットビデオ、および公開データセットのシーン。

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

ArXiv アドレス: https://arxiv.org/pdf/2405.17421
コード (近い将来オープンソースになる予定): www.github.com/JiahuiLei/MoSca
プロジェクトのウェブサイト: www.cis.upenn.edu/~leijh/projects/mosca/
ビデオ (bilibili): www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

以下2 つのビデオデモです。

方法の概要

上記の困難を克服するために、Mosca はまずコンピュータービジョン基盤モデルに保存されている強力な事前知識を利用して、問題解決スペースを削減しました。

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

具体的には、Mosca は単眼メトリック深度推定 (モノラルメトリック深度) モデル UniDepth、ビデオ任意点長期追跡 (任意の点を追跡) モデル CoTracker、およびオプティカルフロー推定 (オプティカルフロー) を使用します。モデル RAFT によって計算された幾何学的誤差 (エピポーラ誤差)、および事前トレーニングされたセマンティックモデル DINO-v2 によって提供されるセマンティック特徴。詳細については、この論文の第 3.1 章を参照してください。実際の動的変形のほとんどは本質的にコンパクトで疎であり、その複雑さは実際の幾何学的構造よりもはるかに低いことがわかります。例えば、硬い物の動きは回転と平行移動で表現でき、人の動きは複数の関節の回転と平行移動で大まかに近似できます。

この観察に基づいて、この記事では、

斬新でコンパクトな動的シーン表現 - 4D Motion Scaffold

を提案します。これは、上記の基礎となるモデルの出力を 2 次元から 4 次元にアップグレードして融合すると同時に、物理学に基づく変形正則化 (ARAP) も統合します。。

4 次元運動足場はグラフです。グラフの各ノードは剛体運動 (SE (3)) の軌跡の列です。グラフのトポロジーは剛体間の距離を考慮して構築された最近接エッジです。モーション軌跡はグローバルに曲がります。空間内の任意の点での変形は、デュアル四元数を使用して時空間内で補間されたグラフ上のノードの剛体軌道を滑らかにすることによって表現できます。この表現により、解決する必要がある運動パラメータが大幅に簡素化されます。 (詳細については、この論文の第 3.2 章を参照してください)。

4 次元モーションスキャフォールドのもう 1 つの大きな利点は、単眼の深さとビデオの 2 次元点追跡によって直接初期化できることです。その後、未知のオクルージョンポイントの位置とローカル座標系の方向を効率的な手法で解決できることです。物理的な定期期間の最適化。詳細については、論文の 3.3 章を参照してください。

4 次元モーションスキャフォールディングを使用すると、いつでも任意の点を任意の目標時間に変形させることができ、観測情報をグローバルに融合することができます。具体的には、ビデオの各フレームは、推定された深度マップを使用して 3 次元空間に逆投影され、3 次元ガウス (3DGS) で初期化されます。これらのガウスは 4 次元の運動足場に「結合」されており、いつでも自由に往復できます。特定の瞬間のシーンをレンダリングしたい場合は、他のすべてのグローバルモーメントのガウスを、融合用の 4 次元足場を介して現在の瞬間に転送するだけで済みます。 4 次元モーションスキャフォールディングとガウスに基づくこの動的なシーン表現は、ガウスレンダラーによって効率的に最適化できます (詳細については、この論文の第 3.4 章を参照)。

最後に、Mosca はカメラの内部パラメータと外部パラメータを必要としないシステムであることに言及する価値があります。前述のコーナーストーンモデルによって出力されたエピポーラジオメトリエラーを使用して静的背景マスクを決定し、コーナーストーンモデルによって出力された深度およびポイントトラッキングを使用することにより、Mosca は再投影誤差を効率的に最適化し、グローバルバンドル調整を解決して直接出力することができます。カメラの内部パラメータとポーズを調整し、その後のレンダリングを通じてカメラの最適化を続けます (詳細については、この論文の第 3.5 章を参照してください)。

実験結果

Mosca は、DAVIS データセットビデオ内の動的なシーンを再構築できます。 Mosca が複数のガウスベースのレンダラーを柔軟にサポートしていることは注目に値します。この記事では、ネイティブ 3DGS レンダラーに加えて、最近のガウスサーフェス再構成レンダラー GOF (ガウスオパシティフィールド) もテストしました。図の右端のトレインに示されているように、GOF はより高品質の法線と深度をレンダリングできます。

Moska は、困難な IPhone DyCheck データセットで大幅な改善を達成すると同時に、広く比較可能な Nvidia データセットで他の手法も比較しました。

以上が本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1672

CakePHP チュートリアル

1428

Laravel チュートリアル

1332

PHP チュートリアル

1276

C# チュートリアル

1256

Related knowledge

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない？パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボットエージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー！元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition（以下、「Yuanluobot SenseRobot」という）をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった！ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標（速度、負荷）を追求していると説明した。など）、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件（未発表2件）、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。、そしてティーポットを一定の角度に傾けます。これ

分散型人工知能カンファレンス DAI 2024 論文募集: エージェントデイ、強化学習の父であるリチャードサットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

See all articles

本物のビデオでも AI ビデオでも、「Mosca」は 4D ダイナミックなレンダリング可能なシーンを再構築および復元できます。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック