


L'iPhone restitue une pièce de 300 mètres carrés en temps réel, atteignant une précision centimétrique ! Dernière recherche de Google : NeRF n'est pas encore en faillite
Le rendu 3D en temps réel de grandes scènes peut être réalisé avec un ordinateur ou même un téléphone portable.
Chaque coin du salon à la chambre principale, en passant par le débarras, la cuisine et la salle de bain peut être rendu de manière réaliste sur l'ordinateur, tout comme le tournage d'une vraie vidéo.
De plus, vous pouvez également réaliser un rendu de scènes complexes sur un iPhone.
Des chercheurs de Google, Google DeepMind et de l'Université de Tübingen ont récemment proposé une nouvelle technologie SMERF.
Il peut restituer des scènes à grande échelle en temps réel sur divers appareils, notamment les smartphones et les ordinateurs portables.
Adresse papier : https://arxiv.org/pdf/2312.07541.pdf
Essentiellement, SMERF est une méthode basée sur les NeRF qui s'appuie sur le MERF (Memory -Efficient Radiance) plus efficace en mémoire. Des champs).
NeRF est mort ?
Actuellement, les champs Radiance sont apparus comme une représentation puissante et facilement optimisée pour la reconstruction et le rendu de scènes 3D photoréalistes du monde réel.
Contrairement aux représentations explicites telles que les maillages et les nuages de points, les champs de rayonnement sont généralement stockés sous forme de réseaux de neurones et rendus à l'aide d'une marche de rayons volumétrique.
Étant donné un budget de calcul suffisamment important, les réseaux de neurones peuvent représenter de manière concise des géométries complexes et des effets dépendants de la vue.
En tant que représentation volumétrique, le nombre d'opérations nécessaires au rendu d'une image se mesure en nombre de pixels plutôt qu'en nombre de primitives (par exemple des triangles), et les modèles les plus performants nécessitent des dizaines de millions de réseaux. évaluations.
Ainsi, les approches en temps réel des champs de rayonnement font des compromis en termes de qualité, de vitesse ou de taille de représentation, et la question reste ouverte de savoir si de telles représentations peuvent rivaliser avec des alternatives telles que le Splatting gaussien.
Dans les dernières recherches, l'auteur propose une méthode évolutive pour obtenir un rendu de grand espace en temps réel plus fidèle que jamais.
Rendu en temps réel SMERF avec une précision centimétrique
SMERF est spécialement conçu pour l'apprentissage de grandes représentations 3D, telles que le rendu de maisons.
Google et d'autres chercheurs ont combiné un schéma de partitionnement de modèle hiérarchique, dans lequel différentes parties de l'espace et les paramètres d'apprentissage sont représentés par différents MERF.
Cela augmente non seulement la capacité du modèle, mais limite également les besoins en calcul et en mémoire. Parce que de grandes représentations 3D comme celle-ci ne peuvent pas être rendues en temps réel avec le NERF classique.
Le système de coordonnées de la scène avec une partition d'espace de coordonnées K=3 et une sous-partition de réseau d'apparition retardée P=4 dans SMERF
Afin d'améliorer la qualité de rendu de SMERF, l'équipe de recherche a également a utilisé une méthode de distillation « enseignant » — étudiant ».
Dans cette méthode, le modèle Zip-Nerf de haute qualité déjà formé (enseignant) est utilisé pour former un nouveau modèle MERF (étudiant).
Comme indiqué ci-dessous, le processus global de « supervision des enseignants ». Le modèle enseignant assure une supervision photométrique par rendu des couleurs et une supervision géométrique par pondération volumétrique le long des rayons de la caméra. L’enseignant et l’élève fonctionnent sur le même ensemble d’intervalles de lumière.
Cette approche permet aux chercheurs de transférer les détails et la qualité d'image de puissants modèles Zip-Nerf vers des structures plus efficaces et plus rapides.
Ceci est particulièrement utile pour les applications sur des appareils moins puissants comme les smartphones et les ordinateurs portables.
Évaluation expérimentale
Les chercheurs ont d'abord évalué la méthode sur 4 scénarios majeurs introduits par Zip-NeRF : Berlin, Alameda, Londres et New York.
Chacune de ces scènes a été prise à partir de 1 000 à 2 000 photos à l'aide d'un objectif fisheye à 180°. Pour une comparaison complète avec 3DGS, les chercheurs ont recadré les photos à 110° et ont utilisé COLMAP pour réestimer les paramètres de la caméra.
Les résultats présentés dans le tableau 1 montrent que pour les subdivisions spatiales modérées K, la précision des méthodes de pointe dépasse largement MERF et 3DGS.
À mesure que K augmente, la précision de reconstruction du modèle s'améliore et est proche de la précision de son professeur Zip-NeRF. La différence est inférieure à 0,1 PSNR et 0,01 SSIM lorsque K=5.
Les chercheurs ont également constaté que ces améliorations quantitatives sous-estimaient les améliorations qualitatives de la précision de la reconstruction, comme le montre la figure 5.
Dans les grandes scènes, la méthode SMERF modélise systématiquement une géométrie fine, des textures haute fréquence, des reflets spéculaires et du contenu distant hors de portée des lignes de base en temps réel.
Dans le même temps, les chercheurs ont découvert que l'augmentation de la résolution des sous-modèles améliore naturellement la qualité, notamment en termes de textures haute fréquence.
En fait, les chercheurs ont découvert que la dernière méthode de rendu est presque impossible à distinguer du Zip-NeRF, comme le montre la figure 8.
De plus, les chercheurs ont évalué plus en détail la méthode de pointe sur l'ensemble de données mip-NeRF 360 de scènes intérieures et extérieures.
Ces scènes sont beaucoup plus petites que celles de l'ensemble de données Zip-NeRF, donc aucune subdivision spatiale n'est requise pour obtenir des résultats de haute qualité. Comme le montre le tableau 2, la version K=1 du modèle surpasse tous les modèles en temps réel précédents de ce benchmark en termes de qualité d'image et de rendu à une vitesse comparable à celle du 3DGS.
Les figures 6 et 8 illustrent qualitativement cette amélioration, la méthode proposée par les chercheurs étant bien meilleure pour représenter la géométrie et les textures haute fréquence tout en éliminant les corps flottants et le brouillard gênants.
Les pages Web peuvent transmettre un espace 3D réaliste
Une fois formé, SMERF peut atteindre 6 degrés de liberté de navigation dans le navigateur et en temps réel sur les smartphones et ordinateurs portables les plus populaires.
Tout le monde sait que la capacité de restituer de grandes scènes 3D en temps réel est importante pour une variété d'applications, notamment les jeux vidéo, la réalité virtuelle augmentée et les applications professionnelles de conception et d'architecture.
Par exemple, dans Google Immersive Maps, la navigation en temps réel est possible.
Cependant, les dernières méthodes proposées par des équipes comme Google présentent également certaines limites. Bien que SMERF ait une excellente qualité de reconstruction et une excellente efficacité de stockage, il souffre d'un coût de stockage élevé, d'un temps de chargement long et d'une lourde charge de travail de formation.
Cependant, cette étude montre que les NeRF et les champs de rayonnement similaires présenteront encore des avantages à l'avenir par rapport aux méthodes d'assemblage gaussien tridimensionnel.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
