Certains bugs sont apparus après la sortie de Sora. Les utilisateurs sur Internet ont découvert certains problèmes. Bien que le modèle ne comprenne pas complètement le monde physique, lorsque le chiot marchait, les deux pattes avant se croisaient, ce qui mettait les gens mal à l'aise. le jeu apparaît de manière inattendue.
L'interaction des objets est très importante pour générer du réalisme vidéo, mais actuellement, il est encore très difficile de synthétiser le comportement dynamique d'objets 3D réels en interaction.
La dynamique conditionnée par l'action est un domaine de recherche qui nécessite la perception des propriétés physiques des objets et la prédiction du mouvement 3D basée sur ces propriétés (telles que la rigidité des objets).
L'évaluation des propriétés physiques des matériaux reste un problème épineux et non résolu, car mesurer les propriétés physiques des matériaux d'objets réels est extrêmement difficile en raison du manque de données.
Récemment, le MIT, l'Université de Stanford, l'Université de Columbia et l'Université de Cornell ont proposé conjointement un modèle basé sur la physique appelé PhysDreamer, qui utilise les priorités d'apprentissage de la dynamique des objets apprises par des modèles de génération vidéo pour donner une interactivité aux objets 3D statiques.
Lien papier : https://arxiv.org/pdf/2404.13026.pdf
Page d'accueil du projet : https://physdreamer.github.io/
En affinant les connaissances préalables, PhysDreamer permet à des objets réels de répondre à de nouvelles interactions, telles que des forces externes ou des manipulations d'agents, et des études d'utilisateurs ont été utilisées pour évaluer le réalisme des interactions synthétisées en démontrant l'efficacité de l'approche sur différents exemples d'objets élastiques.
Étant donné un objet statique représenté par une gaussienne 3D (où xp représente la position, αp représente l'opacité, Σp représente la matrice de covariance et cp représente la couleur de la particule), le résultat final L'objectif est d'estimer les champs de propriétés matérielles physiques des objets pour permettre une synthèse de mouvement interactive réaliste.
Les propriétés spécifiques incluent la masse m, le module d'Young E et le coefficient de Poisson ν. Le module d'Young est utilisé pour mesurer la rigidité du matériau et détermine la trajectoire de mouvement de l'objet en réponse à des forces externes : un module d'Young plus élevé apportera. Pour obtenir une déformation plus petite, plus de rigidité et un mouvement à plus haute fréquence.
effectuez un mouvement simulé sous la même force mais avec un module d'Young différent
Les chercheurs ont donc formalisé le problème car, en estimant le champ de module d'Young variable spatialement E(x), vous pouvez utiliser pour interrogez le module de Young de la particule pour la simulation de particules.
Comme pour les autres propriétés physiques, la masse m_p de la particule peut être pré-calculée comme le produit de la densité constante (ρ) et du volume de la particule Vp. Le volume de la particule peut être calculé en divisant le « volume du ; unité de fond » par « le nombre de particules contenues dans l'unité » à estimer ; l'influence du coefficient de Poisson νp sur le mouvement de l'objet est négligeable et peut être supposée constante.
PhysDreamer peut estimer le champ matériel d'un objet 3D statique. L'idée clé est de générer une vidéo crédible de l'objet en mouvement, puis d'optimiser le champ matériel E(x) pour correspondre au mouvement synthétique.
Étant donné un objet représenté comme une gaussienne 3D, restituez-le d'abord à partir d'un certain point de vue (avec arrière-plan), puis utilisez un modèle de génération d'image en vidéo pour générer une vidéo de référence de l'objet en mouvement, puis utilisez un modèle différentiable. méthode du point matériel (MPM (Material Point Methods) et rendu différenciable, qui optimise le champ matériel variable spatialement et le champ de vitesse initial, visant à minimiser la différence entre la vidéo rendue et la vidéo de référence.
La flèche en pointillé représente le flux dégradé
1. Le Gaussien 3D utilise un ensemble de noyaux gaussiens 3D anisotropes pour représenter le champ de rayonnement de la scène 3D. Bien qu'il soit principalement présenté comme une nouvelle méthode de synthèse de vue 3D, il peut être directement appliqué car le Gaussien 3D possède des propriétés physiques pour le simulateur. particules. Semblable à la méthode PhysGaussian, les chercheurs utilisent des méthodes de points matériels (MPM, Material Point Methods) pour simuler directement la dynamique des objets sur les particules gaussiennes. Étant donné que la distribution gaussienne 3D est principalement située à la surface de l'objet, un processus de remplissage interne optionnel peut être appliqué pour améliorer le réalisme de la simulation. Mécanique des continus et matériaux élastiques En mécanique des continus, la déformation du matériau est simulée grâce à une fonction de cartographie ϕ, qui peut cartographier l'espace du matériau à l'état non déformé Point La matrice jacobienne F de la fonction de cartographie ϕ, c'est-à-dire le gradient de déformation, est la clé pour comprendre et décrire la relation contrainte-déformation du matériau, qui implique l'état de déformation local du matériau. Dans les matériaux hautement élastiques, le calcul de la contrainte de Cauchy (contrainte) s'appuie sur la fonction de densité d'énergie de déformation ψ(F), qui permet de quantifier le degré de déformation non rigide du matériau, de manière générale, cette fonction est déterminée ; par des scientifiques des matériaux sur la base du matériau Conçu sur la base des principes de symétrie et d'invariance rotationnelle et mis en correspondance avec des données expérimentales.
MPM est une méthode de calcul utilisée pour simuler la dynamique de divers matériaux. Elle combine les avantages des méthodes d'Euler et de Lagrangien et est particulièrement adaptée à la simulation du comportement dynamique des solides, des fluides, du sable, des tissus et d'autres matériaux. capable de gérer efficacement les changements topologiques des matériaux et facilement parallélisé sur les unités de traitement graphique (GPU). La discrétisation spatiale est effectuée en traitant l'objet comme une série de particules gaussiennes. Chaque particule p représente une petite partie du volume de l'objet et porte des attributs tels que le volume, la masse, la position, la vitesse, le gradient de déformation et la vitesse locale. gradient de champ. Dans l'étape P2G, l'impulsion est transférée des particules à la grille et le réseau est mis à jour La vitesse sur la grille est ensuite transmise à la particule pour mettre à jour la position et la vitesse de la particule. En même temps, le gradient de vitesse local et le gradient de déformation sont également mis à jour en conséquence pour refléter l'état actuel du matériau. La méthode MPM peut simuler avec précision le comportement dynamique complexe des matériaux, y compris la déformation, la fracture et l'interaction des matériaux. 2. Estimation des propriétés physiques
Les chercheurs ont utilisé la méthode des points matériels des moindres carrés mobiles (MLS-MPM) comme simulateur physique et un modèle de matériau hyperélastique à rotation fixe pour simuler le processus d'objets tridimensionnels. Processus de simulation MLS-MPM Le simulateur utilise MLS-MPM pour simuler le comportement physique de l'objet. La fonction de simulation reçoit la position des particules x, la vitesse v, le gradient de déformation F et le champ de vitesse local de. le pas de temps actuel t. Le gradient C, ainsi que l'ensemble des propriétés physiques de la particule θ (y compris la masse, le module de Young, le coefficient de Poisson et le volume de toutes les particules) et le pas de temps Δt (1 × 10 ^ -4) sont pris en compte. comme entrée, et le pas de temps suivant est sorti La valeur correspondante de t+1. Pour simuler la dynamique entre des images vidéo adjacentes, il est généralement nécessaire d'itérer des centaines de sous-étapes. Simulation et rendu Après la simulation, la fonction de rendu différentiable Frender est utilisée pour restituer les particules gaussiennes pour chaque image, où Rt représente la matrice de rotation de toutes les particules obtenues à partir de l'étape de simulation. Ensuite, la vidéo générée est utilisée comme référence pour optimiser le module de Young E et la vitesse initiale v0 variant spatialement via une fonction de perte par image, où la fonction de perte combine la perte L1 et la perte D-SSIM, le poids Le paramètre λ est fixé à 0,1 Paramétrage et régularisation Le champ matériel et le champ de vitesse sont paramétrés par deux triplans et un perceptron multicouche (MLP) à trois couches, afin d'améliorer l'espace. la régularisation de la variation totale est appliquée à tous les plans spatiaux de ces deux domaines. Processus d'optimisation Le processus d'optimisation est divisé en deux étapes pour améliorer la stabilité et accélérer la convergence : 1. initialisé et fixé de manière aléatoire, puis seules les trois premières images de la vidéo de référence sont utilisées pour optimiser la vitesse initiale de chaque particule. 2. Dans la deuxième étape, la vitesse initiale est fixe et le module de Young variable spatialement est optimisé. Pour éviter que les dégradés n'explosent ou ne disparaissent, le signal de dégradé circule uniquement vers l'image précédente. De cette manière, le simulateur est capable de simuler le comportement physique de l'objet et d'optimiser les propriétés du matériau et les conditions initiales en fonction de la vidéo de référence pour générer des effets dynamiques réalistes. 3. Accélérez les simulations avec le sous-échantillonnage L'utilisation de particules gaussiennes tridimensionnelles pour un rendu haute fidélité nécessite généralement des millions de particules pour représenter une scène, ce qui entraîne une énorme charge de calcul pour l'exécution des simulations. Afin d'améliorer l'efficacité, le modèle introduit un processus de sous-échantillonnage, qui réduit considérablement la quantité de calcul tout en conservant la haute fidélité des résultats de rendu : seul un petit nombre de particules motrices est utilisé pour la simulation, puis par interpolation Piloter des particules pour obtenir la position et la rotation des particules gaussiennes équilibre efficacement l'efficacité du calcul et la qualité du rendu. Plus précisément, le modèle utilise l'algorithme de clustering K-Means pour créer un ensemble de particules motrices au temps t=0, où chaque particule motrice est représentée par un ensemble d'attributs physiques, notamment la position, la vitesse, le gradient de déformation et champ de vitesse local. Gradient, module d'Young, masse, coefficient de Poisson et volume. La position initiale de la particule motrice est la moyenne des positions de tous ses membres du cluster, où le nombre de particules motrices est bien inférieur au nombre de particules gaussiennes tridimensionnelles. Pendant le processus de rendu, la position et la rotation de chaque particule gaussienne tridimensionnelle sont calculées en interpolant la position et la rotation de la particule motrice : pour chaque particule gaussienne tridimensionnelle, trouvez d'abord ses huit particules motrices voisines les plus proches au temps t. =0, la transformation du corps rigide T entre ces huit particules motrices à t=0 et l'horodatage actuel est ensuite ajustée pour déterminer la position et la rotation actuelles des particules. Ensemble de données En capturant des images multi-vues, les chercheurs ont collecté huit scènes statiques du monde réel, où chaque scène comprenait un objet et un arrière-plan, et les éléments comprenaient cinq fleurs. (une rose rouge, un œillet, une rose orange, une tulipe et une rose blanche), une alocasia, un cordon téléphonique et un bonnet ; puis capturez quatre vidéos interactives pour décrire son mouvement naturel après interaction, comme piquer ou faire glisser , et utilisez une vidéo réelle comme référence supplémentaire à des fins de comparaison. Résultats expérimentaux Résultats d'analyse qualitative sur le module d'Young spatialement variable (une quantité physique qui mesure l'élasticité d'un matériau) Dans des études d'utilisateurs, par rapport aux méthodes de base et après en comparant les vidéos capturées dans le monde, on peut voir que plus de 80 % des participants ont préféré le modèle PhysDreamer dans l'expérience à deux choix (2AFC), estimant qu'il est supérieur en termes d'authenticité du mouvement en termes de qualité visuelle ; il y a aussi 65% des participants qui ont préféré PhysDreamer Il convient de noter que puisque les scènes statiques comparées elles-mêmes sont cohérentes, l'évaluation de la qualité visuelle repose également dans une certaine mesure sur l'effet de mouvement des objets générés. On peut observer à partir des tranches de modèles de mouvement à différents moments que PhysGaussian ne dispose pas d'une estimation de principe des propriétés des matériaux, ce qui fait que l'amplitude de mouvement qu'il génère est trop grande et trop lente, ce qui est incompatible avec la réalité. . Par rapport à DreamGaussian4D, 70 % et 63,5 % des échantillons 2AFC préfèrent le modèle PhysDreamer en termes de qualité visuelle et d'authenticité du mouvement. Comme le montre l'image ci-dessus, le mouvement généré par DreamGaussian4D est périodique et l'amplitude. est maintenu à une petite valeur constante. En revanche, PhysDreamer peut simuler l'effet d'atténuation en mouvement. Résultats expérimentaux
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!