


Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire !
0. A quoi sert cet article ?
Proposed DepthFM : Un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence.
Lisons cet ouvrage ensemble~
1. Informations papier
Titre : DepthFM : Fast Monocular Depth Estimation with Flow Matching
Auteurs : Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer
Institution : MCML
Lien original : https://arxiv.org/abs/2403.13788
Lien code : https://github.com/ CompVis/degree -fm
Page d'accueil officielle : https://degreefm.github.io/
2 Abstract
est essentielle pour de nombreuses tâches et applications touristiques en aval. Les méthodes discriminantes actuelles pour ce problème sont limitées par des artefacts de flou, tandis que les méthodes génératives de pointe souffrent d'une vitesse d'échantillonnage d'apprentissage lente en raison de leur nature SDE. Au lieu de commencer par le bruit, nous recherchons un mappage direct de l’image d’entrée vers l’image de profondeur. Nous observons que cela peut être construit efficacement par correspondance de flux, car sa trajectoire droite dans l'espace de solution offre efficacité et haute qualité. Notre étude montre que les modèles de diffusion d'images pré-entraînés peuvent être utilisés comme connaissances préalables suffisantes pour les modèles approfondis d'appariement de flux. Sur des benchmarks de scènes naturelles complexes, notre approche légère démontre des performances de pointe à un coût de calcul avantageusement faible, bien qu'elle ait été formée sur seulement une petite quantité de données synthétiques.
3. Démonstration d'effet
DepthFM est un modèle de correspondance de flux d'inférence rapide avec une forte capacité de généralisation sans tir, qui peut utiliser de solides connaissances préalables et se généraliser facilement à des images réelles inconnues. Après un entraînement sur des données synthétiques, le modèle se généralise bien aux images réelles inconnues et correspond avec précision aux images de profondeur.
Comparé à d'autres modèles de pointe, DepthFM obtient des images nettement plus claires avec une seule évaluation de fonction. L'estimation de la profondeur de Marigold prend deux fois plus de temps que celle de DethFM, mais elle ne peut pas générer de cartes de profondeur avec la même granularité.
4. Principales contributions
(1) Proposition de DepthFM, un modèle d'estimation de profondeur monoculaire de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur et la synthèse d'images conditionnées en profondeur.
(2) démontre le transfert réussi d'images a priori fortes des modèles de diffusion vers des modèles de correspondance de flux avec peu de dépendance aux données d'entraînement et sans besoin d'images du monde réel.
(3) montre que le modèle d'appariement de flux est efficace et peut synthétiser des cartes de profondeur en une seule étape d'inférence.
(4) Bien qu'il soit formé uniquement sur des données synthétiques, DepthFM fonctionne bien sur des ensembles de données de référence et des images naturelles.
(5) Utilisez la perte normale de surface comme cible auxiliaire pour obtenir une estimation plus précise de la profondeur.
(6) En plus de l'estimation de la profondeur, la confiance de sa prédiction peut également être prédite de manière fiable.
5. Quel est le principe spécifique ?
Pipeline de formations. La formation est limitée par l'appariement de flux et la perte normale de surface : pour l'appariement de flux, l'appariement de flux dépendant des données est utilisé pour régresser le champ vectoriel entre la profondeur de vérité terrain et l'image correspondante. De plus, le réalisme géométrique est obtenu grâce à une perte de normale de surface.
Correspondance de flux liée aux données : DepthFM régresse le champ vectoriel en ligne droite entre la distribution d'image et la distribution de profondeur en utilisant des paires image/profondeur. Cette approche favorise un raisonnement efficace en plusieurs étapes sans sacrifier les performances.
Affinement des priorités de diffusion : Les auteurs démontrent un transfert réussi de puissantes priorités d'images d'un modèle de diffusion de synthèse d'images de base (Stable Diffusion v2-1) vers un modèle d'appariement de flux avec peu de dépendance aux données d'entraînement et sans besoin de réel -Image du monde.
Perte normale de surface auxiliaire : Étant donné que DepthFM est uniquement formé sur des données synthétiques et que la plupart des ensembles de données synthétiques fournissent des normales de surface de vérité terrain, la perte normale de surface est utilisée comme cible auxiliaire pour améliorer la précision de l'estimation de la profondeur de DepthFM.
6. Résultats expérimentaux
DepthFM démontre des capacités de généralisation significatives en s'entraînant sur seulement 63 000 échantillons purement synthétiques et est capable d'estimer la profondeur sans tir sur des ensembles de données intérieurs et extérieurs. Le tableau 1 montre qualitativement la comparaison des performances de DepthFM avec les modèles correspondants de pointe. Alors que d'autres modèles s'appuient souvent sur de grands ensembles de données pour la formation, DepthFM exploite la richesse des connaissances inhérentes au modèle sous-jacent basé sur la diffusion. Cette méthode permet non seulement d'économiser des ressources informatiques, mais met également l'accent sur l'adaptabilité et l'efficacité de la formation du modèle.
Comparaison de l'estimation de la profondeur du souci basée sur la diffusion, du benchmark Flow Matching (FM) et du modèle DepthFM. Chaque méthode est évaluée en utilisant un seul membre d'ensemble et avec un nombre variable d'évaluations de fonctions (NFE) sur deux ensembles de données de référence communs. Par rapport à la ligne de base FM, DepthFM intègre la perte normale et le couplage dépendant des données pendant l'entraînement.
Résultats qualitatifs pour les modèles Marigold et DepthFM dans différents nombres d'évaluations fonctionnelles. Il convient de noter que Marigold ne donne aucun résultat significatif par inférence en une seule étape, alors que les résultats de DepthFM montrent déjà la véritable carte de profondeur.
Achèvement en profondeur sur Hypersim. Gauche : Donner un peu de profondeur. Moyenne : Profondeur estimée à partir de la profondeur partielle donnée. À droite : la vraie profondeur.
7. Résumé
DepthFM, une méthode de correspondance de flux pour l'estimation de la profondeur monoculaire. En apprenant un mappage direct entre l'image d'entrée et la profondeur, plutôt que de débruiter une distribution normale dans une carte de profondeur, cette approche est nettement plus efficace que les solutions actuelles basées sur la diffusion tout en fournissant des cartes de profondeur à grain fin sans artefacts communs du paradigme discriminatif. . DepthFM utilise au préalable un modèle de diffusion d'images pré-entraîné, le transférant efficacement vers un modèle de correspondance de flux profond. Par conséquent, DepthFM n'est formé que sur des données synthétiques mais se généralise toujours bien aux images naturelles lors de l'inférence. De plus, il a été démontré que la perte normale de surface auxiliaire améliore l’estimation de la profondeur. L'approche légère de DepthFM est compétitive, rapide et fournit des estimations de confiance fiables.
Les lecteurs intéressés par plus de résultats expérimentaux et de détails sur l'article peuvent lire l'article original
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



DDREASE est un outil permettant de récupérer des données à partir de périphériques de fichiers ou de blocs tels que des disques durs, des SSD, des disques RAM, des CD, des DVD et des périphériques de stockage USB. Il copie les données d'un périphérique bloc à un autre, laissant derrière lui les blocs corrompus et ne déplaçant que les bons blocs. ddreasue est un puissant outil de récupération entièrement automatisé car il ne nécessite aucune interruption pendant les opérations de récupération. De plus, grâce au fichier map ddasue, il peut être arrêté et repris à tout moment. Les autres fonctionnalités clés de DDREASE sont les suivantes : Il n'écrase pas les données récupérées mais comble les lacunes en cas de récupération itérative. Cependant, il peut être tronqué si l'outil est invité à le faire explicitement. Récupérer les données de plusieurs fichiers ou blocs en un seul

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Vous êtes confronté à un décalage et à une connexion de données mobile lente sur iPhone ? En règle générale, la puissance de l'Internet cellulaire sur votre téléphone dépend de plusieurs facteurs tels que la région, le type de réseau cellulaire, le type d'itinérance, etc. Vous pouvez prendre certaines mesures pour obtenir une connexion Internet cellulaire plus rapide et plus fiable. Correctif 1 – Forcer le redémarrage de l'iPhone Parfois, le redémarrage forcé de votre appareil réinitialise simplement beaucoup de choses, y compris la connexion cellulaire. Étape 1 – Appuyez simplement une fois sur la touche d’augmentation du volume et relâchez-la. Ensuite, appuyez sur la touche de réduction du volume et relâchez-la à nouveau. Étape 2 – La partie suivante du processus consiste à maintenir le bouton sur le côté droit. Laissez l'iPhone finir de redémarrer. Activez les données cellulaires et vérifiez la vitesse du réseau. Vérifiez à nouveau Correctif 2 – Changer le mode de données Bien que la 5G offre de meilleures vitesses de réseau, elle fonctionne mieux lorsque le signal est plus faible

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
