


Qu'il s'agisse d'une vidéo réelle ou d'une vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com
Lei Jiahui, doctorant au Département d'informatique de l'Université de Pennsylvanie (2020 - présent), son superviseur est le professeur Kostas Daniilidis, son directeur actuel l'orientation de la recherche est celle des scènes dynamiques en quatre dimensions, des représentations de modélisation géométrique et des algorithmes avec applications. Il a publié 7 articles en tant que premier ou co-auteur dans les principales conférences sur la vision par ordinateur et l'apprentissage automatique (CVPR, NeurIPS, ICML, ECCV). Son précédent diplôme de premier cycle (2016-2020) est diplômé du département de contrôle de l'université du Zhejiang et de la classe mixte du Zhu Kezhen College avec la première place dans sa spécialisation.
La reconstruction de scènes dynamiques rendues à partir d'une vidéo monoculaire arbitraire est un Saint Graal dans la recherche en vision par ordinateur. Dans cet article, une équipe de chercheurs de l’Université de Pennsylvanie et de l’Université de Stanford tente de faire un petit pas vers cet objectif.
Il existe d'énormes vidéos monoculaires sur Internet, qui contiennent une grande quantité d'informations sur le monde physique. Cependant, la vision 3D manque encore de moyens efficaces pour extraire les informations dynamiques 3D de ces vidéos afin de prendre en charge la future modélisation de grands modèles 3D et la compréhension de la dynamique. monde physique. Bien qu’important, ce problème inverse est extrêmement difficile.
Premièrement, les vidéos 2D réelles manquent souvent d'informations multi-vues, de sorte que la géométrie multi-vue ne peut pas être utilisée pour la reconstruction 3D. Dans de nombreux cas, il est même impossible de résoudre la pose de la caméra et les paramètres internes via les logiciels existants (. comme COLMAP).
Deuxièmement, le degré de liberté des scènes dynamiques est extrêmement élevé, et la représentation tridimensionnelle de sa déformation et de la fusion d'informations à long terme est encore immature, ce qui rend ce problème inverse difficile plus compliqué.
Cet article propose un nouveau système de traitement de l'information neuronale - MoSca, qui n'a besoin que de fournir une série d'images vidéo sans aucune information supplémentaire, et peut générer des vidéos, des clips de films et de séries télévisées à partir de SORA, reconstruire une dynamique rendue scènes de vidéos monoculaires dans la nature, de vidéos Internet et d'ensembles de données publics.
Adresse ArXiv : https://arxiv.org/pdf/2405.17421 Code (sera open source dans un futur proche) : www.github.com/JiahuiLei/MoSca Site Web du projet : www.cis.upenn.edu/~leijh/projects/mosca/ Vidéo (bilibili) : www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4


Présentation de la méthode
Afin de surmonter les difficultés ci-dessus, Mosca a d'abord utilisé les solides connaissances préalables stockées dans les modèles de base de vision par ordinateur pour réduire l'espace de solution du problème.
Plus précisément, Mosca utilise le modèle d'estimation de profondeur métrique monoculaire UniDepth, le modèle CoTracker de suivi vidéo à long terme de tout point (suivre n'importe quel point) et l'estimation du flux optique (flux optique) ) L'erreur géométrique épipolaire (erreur épipolaire) calculé par le modèle RAFT et les caractéristiques sémantiques fournies par le modèle sémantique pré-entraîné DINO-v2. Voir le chapitre 3.1 de l'article pour plus de détails. Nous observons que la plupart des déformations dynamiques du monde réel sont de nature compacte et clairsemée, et que leur complexité est souvent bien inférieure à celle des structures géométriques réelles. Par exemple, le mouvement d’un objet dur peut être représenté par une rotation et une translation, et le mouvement d’une personne peut être grossièrement approximé par la rotation et la translation de plusieurs articulations.
Basé sur cette observation, cet article propose une
nouvelle représentation de scène dynamique compacte - 4D Motion Scaffold, qui met à niveau la sortie du modèle de base ci-dessus de deux dimensions à quatre dimensions et la fusionne, tout en intégrant également la régularisation des déformations inspirée par la physique (ARAP). . L'échafaudage de mouvement à quatre dimensions est un graphe. Chaque nœud du graphe est une chaîne de trajectoires de mouvement de corps rigide (SE (3)) La topologie du graphe est l'arête voisine la plus proche construite en considérant la distance entre le corps rigide. courbes de trajectoire de mouvement à l’échelle mondiale. Les déformations en tout point de l'espace peuvent être représentées en lissant les trajectoires des corps rigides des nœuds sur le graphe interpolé dans l'espace-temps à l'aide de doubles quaternions. Cette représentation simplifie grandement les paramètres de mouvement qui doivent être résolus. (Voir le chapitre 3.2 du document pour plus de détails). Un autre énorme avantage de l'échafaudage de mouvement en quatre dimensions est qu'il peut être directement initialisé par la profondeur monoculaire et le suivi vidéo des points en deux dimensions, puis la position inconnue du point d'occlusion et la direction du système de coordonnées local peuvent être résolues grâce à un moyen efficace. optimisation physique à terme régulier. Pour plus de détails, veuillez vous référer au chapitre 3.3 de l'article Avec l'échafaudage de mouvement en quatre dimensions, n'importe quel point à tout moment peut être déformé en n'importe quel moment cible, ce qui permet de fusionner globalement les informations d'observation. Plus précisément, chaque image de la vidéo peut être rétroprojetée dans un espace tridimensionnel à l'aide de la carte de profondeur estimée et initialisée avec une gaussienne tridimensionnelle (3DGS). Ces gaussiennes sont « liées » à l’échafaudage du mouvement quadridimensionnel et peuvent circuler librement à tout moment. Si vous souhaitez restituer la scène à un certain moment, il vous suffit de transférer les gaussiennes de tous les autres moments globaux au moment actuel via l'échafaudage quadridimensionnel pour la fusion. Cette représentation de scène dynamique basée sur un échafaudage de mouvement quadridimensionnel et gaussien peut être optimisée efficacement par le moteur de rendu gaussien (voir le chapitre 3.4 de l'article pour plus de détails). Enfin, il convient de mentionner que Mosca est un système qui ne nécessite pas de paramètres internes et externes de la caméra. En utilisant l'erreur de géométrie épipolaire produite par le modèle de pierre angulaire mentionné ci-dessus pour déterminer le masque de fond statique, et en utilisant la sortie de profondeur et de suivi de points du modèle de pierre angulaire, Mosca peut optimiser efficacement l'erreur de reprojection et résoudre l'ajustement global du faisceau pour produire directement Paramètres internes et pose de la caméra, et continuez à optimiser la caméra grâce au rendu ultérieur (voir le chapitre 3.5 de l'article pour plus de détails). Résultats expérimentaux Mosca peut reconstruire des scènes dynamiques dans les vidéos de l'ensemble de données DAVIS. Il convient de noter que Mosca prend en charge de manière flexible plusieurs moteurs de rendu gaussiens. En plus du moteur de rendu 3DGS natif, cet article a également testé le récent moteur de rendu de reconstruction de surface gaussienne GOF (Gaussian Opacity Field). Comme le montre le train le plus à droite de l'image, GOF peut restituer une normale et une profondeur de meilleure qualité. Moska réalise des améliorations significatives sur l'ensemble de données difficile IPhone DyCheck, tout en comparant également d'autres méthodes sur l'ensemble de données Nvidia largement comparable.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir
