Maison Périphériques technologiques IA Qu'il s'agisse d'une vidéo réelle ou d'une vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Qu'il s'agisse d'une vidéo réelle ou d'une vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Jun 22, 2024 am 07:09 AM
产业 système de traitement de l'information neuronale

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.
La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Lei Jiahui, doctorant au Département d'informatique de l'Université de Pennsylvanie (2020 - présent), son superviseur est le professeur Kostas Daniilidis, son directeur actuel l'orientation de la recherche est celle des scènes dynamiques en quatre dimensions, des représentations de modélisation géométrique et des algorithmes avec applications. Il a publié 7 articles en tant que premier ou co-auteur dans les principales conférences sur la vision par ordinateur et l'apprentissage automatique (CVPR, NeurIPS, ICML, ECCV). Son précédent diplôme de premier cycle (2016-2020) est diplômé du département de contrôle de l'université du Zhejiang et de la classe mixte du Zhu Kezhen College avec la première place dans sa spécialisation.

La reconstruction de scènes dynamiques rendues à partir d'une vidéo monoculaire arbitraire est un Saint Graal dans la recherche en vision par ordinateur. Dans cet article, une équipe de chercheurs de l’Université de Pennsylvanie et de l’Université de Stanford tente de faire un petit pas vers cet objectif.

Il existe d'énormes vidéos monoculaires sur Internet, qui contiennent une grande quantité d'informations sur le monde physique. Cependant, la vision 3D manque encore de moyens efficaces pour extraire les informations dynamiques 3D de ces vidéos afin de prendre en charge la future modélisation de grands modèles 3D et la compréhension de la dynamique. monde physique. Bien qu’important, ce problème inverse est extrêmement difficile.

  • Premièrement, les vidéos 2D réelles manquent souvent d'informations multi-vues, de sorte que la géométrie multi-vue ne peut pas être utilisée pour la reconstruction 3D. Dans de nombreux cas, il est même impossible de résoudre la pose de la caméra et les paramètres internes via les logiciels existants (. comme COLMAP).

  • Deuxièmement, le degré de liberté des scènes dynamiques est extrêmement élevé, et la représentation tridimensionnelle de sa déformation et de la fusion d'informations à long terme est encore immature, ce qui rend ce problème inverse difficile plus compliqué.

Cet article propose un nouveau système de traitement de l'information neuronale - MoSca, qui n'a besoin que de fournir une série d'images vidéo sans aucune information supplémentaire, et peut générer des vidéos, des clips de films et de séries télévisées à partir de SORA, reconstruire une dynamique rendue scènes de vidéos monoculaires dans la nature, de vidéos Internet et d'ensembles de données publics.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

  • Adresse ArXiv : https://arxiv.org/pdf/2405.17421
  • Code (sera open source dans un futur proche) : www.github.com/JiahuiLei/MoSca
  • Site Web du projet : www.cis.upenn.edu/~leijh/projects/mosca/
  • Vidéo (bilibili) : www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

Ce qui suit sont deux démos vidéo. Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Présentation de la méthode

Afin de surmonter les difficultés ci-dessus, Mosca a d'abord utilisé les solides connaissances préalables stockées dans les modèles de base de vision par ordinateur pour réduire l'espace de solution du problème.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Plus précisément, Mosca utilise le modèle d'estimation de profondeur métrique monoculaire UniDepth, le modèle CoTracker de suivi vidéo à long terme de tout point (suivre n'importe quel point) et l'estimation du flux optique (flux optique) ) L'erreur géométrique épipolaire (erreur épipolaire) calculé par le modèle RAFT et les caractéristiques sémantiques fournies par le modèle sémantique pré-entraîné DINO-v2. Voir le chapitre 3.1 de l'article pour plus de détails. Nous observons que la plupart des déformations dynamiques du monde réel sont de nature compacte et clairsemée, et que leur complexité est souvent bien inférieure à celle des structures géométriques réelles. Par exemple, le mouvement d’un objet dur peut être représenté par une rotation et une translation, et le mouvement d’une personne peut être grossièrement approximé par la rotation et la translation de plusieurs articulations.

Basé sur cette observation, cet article propose une

nouvelle représentation de scène dynamique compacte - 4D Motion Scaffold

, qui met à niveau la sortie du modèle de base ci-dessus de deux dimensions à quatre dimensions et la fusionne, tout en intégrant également la régularisation des déformations inspirée par la physique (ARAP). .

L'échafaudage de mouvement à quatre dimensions est un graphe. Chaque nœud du graphe est une chaîne de trajectoires de mouvement de corps rigide (SE (3)) La topologie du graphe est l'arête voisine la plus proche construite en considérant la distance entre le corps rigide. courbes de trajectoire de mouvement à l’échelle mondiale. Les déformations en tout point de l'espace peuvent être représentées en lissant les trajectoires des corps rigides des nœuds sur le graphe interpolé dans l'espace-temps à l'aide de doubles quaternions. Cette représentation simplifie grandement les paramètres de mouvement qui doivent être résolus. (Voir le chapitre 3.2 du document pour plus de détails). Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Un autre énorme avantage de l'échafaudage de mouvement en quatre dimensions est qu'il peut être directement initialisé par la profondeur monoculaire et le suivi vidéo des points en deux dimensions, puis la position inconnue du point d'occlusion et la direction du système de coordonnées local peuvent être résolues grâce à un moyen efficace. optimisation physique à terme régulier. Pour plus de détails, veuillez vous référer au chapitre 3.3 de l'article

Avec l'échafaudage de mouvement en quatre dimensions, n'importe quel point à tout moment peut être déformé en n'importe quel moment cible, ce qui permet de fusionner globalement les informations d'observation. Plus précisément, chaque image de la vidéo peut être rétroprojetée dans un espace tridimensionnel à l'aide de la carte de profondeur estimée et initialisée avec une gaussienne tridimensionnelle (3DGS). Ces gaussiennes sont « liées » à l’échafaudage du mouvement quadridimensionnel et peuvent circuler librement à tout moment. Si vous souhaitez restituer la scène à un certain moment, il vous suffit de transférer les gaussiennes de tous les autres moments globaux au moment actuel via l'échafaudage quadridimensionnel pour la fusion. Cette représentation de scène dynamique basée sur un échafaudage de mouvement quadridimensionnel et gaussien peut être optimisée efficacement par le moteur de rendu gaussien (voir le chapitre 3.4 de l'article pour plus de détails).

Enfin, il convient de mentionner que Mosca est un système qui ne nécessite pas de paramètres internes et externes de la caméra. En utilisant l'erreur de géométrie épipolaire produite par le modèle de pierre angulaire mentionné ci-dessus pour déterminer le masque de fond statique, et en utilisant la sortie de profondeur et de suivi de points du modèle de pierre angulaire, Mosca peut optimiser efficacement l'erreur de reprojection et résoudre l'ajustement global du faisceau pour produire directement Paramètres internes et pose de la caméra, et continuez à optimiser la caméra grâce au rendu ultérieur (voir le chapitre 3.5 de l'article pour plus de détails).

Résultats expérimentaux

Mosca peut reconstruire des scènes dynamiques dans les vidéos de l'ensemble de données DAVIS. Il convient de noter que Mosca prend en charge de manière flexible plusieurs moteurs de rendu gaussiens. En plus du moteur de rendu 3DGS natif, cet article a également testé le récent moteur de rendu de reconstruction de surface gaussienne GOF (Gaussian Opacity Field). Comme le montre le train le plus à droite de l'image, GOF peut restituer une normale et une profondeur de meilleure qualité.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Moska réalise des améliorations significatives sur l'ensemble de données difficile IPhone DyCheck, tout en comparant également d'autres méthodes sur l'ensemble de données Nvidia largement comparable.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Musée à deux points: toutes les expositions et où les trouver
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Musée à deux points: toutes les expositions et où les trouver
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award

Le premier grand modèle d'interface utilisateur en Chine est lancé ! Le grand modèle de Motiff crée le meilleur assistant pour les concepteurs et optimise le flux de travail de conception d'interface utilisateur Le premier grand modèle d'interface utilisateur en Chine est lancé ! Le grand modèle de Motiff crée le meilleur assistant pour les concepteurs et optimise le flux de travail de conception d'interface utilisateur Aug 19, 2024 pm 04:48 PM

Le premier grand modèle d'interface utilisateur en Chine est lancé ! Le grand modèle de Motiff crée le meilleur assistant pour les concepteurs et optimise le flux de travail de conception d'interface utilisateur

See all articles