


Modèle de diffusion vidéo à l'ère AIGC, Fudan et d'autres équipes ont publié la première revue dans le domaine
Le contenu généré par l'IA est devenu l'un des sujets les plus brûlants dans le domaine actuel de l'intelligence artificielle et représente la technologie de pointe dans ce domaine. Ces dernières années, avec la sortie de nouvelles technologies telles que Stable Diffusion, DALL-E3 et ControlNet, le domaine de la génération et de l'édition d'images IA a permis d'obtenir des effets visuels époustouflants et a suscité une large attention et de nombreuses discussions dans le monde universitaire et industriel. La plupart de ces méthodes sont basées sur des modèles de diffusion, ce qui est la clé de leur capacité à obtenir une génération contrôlable puissante, une génération photoréaliste et une diversité.
Cependant, par rapport aux simples images statiques, les vidéos contiennent des informations sémantiques plus riches et des changements dynamiques. La vidéo peut montrer l’évolution dynamique des objets physiques, de sorte que les besoins et les défis dans le domaine de la génération et du montage vidéo sont plus complexes. Bien que dans ce domaine, la recherche sur la génération vidéo ait été confrontée à des difficultés en raison des limitations des données annotées et des ressources informatiques, certains travaux de recherche représentatifs, tels que les méthodes Make-A-Video, Imagen Video et Gen-2, ont déjà commencé progressivement. sur la position dominante.
Ces travaux de recherche orientent le développement de la technologie de génération et de montage vidéo. Les données de recherche montrent que depuis 2022, les travaux de recherche sur les modèles de diffusion sur les tâches vidéo ont connu une croissance explosive. Cette tendance reflète non seulement la popularité des modèles de diffusion vidéo dans le monde universitaire et industriel, mais souligne également le besoin urgent pour les chercheurs dans ce domaine de continuer à faire des percées et des innovations dans la technologie de génération vidéo.
Récemment, le Laboratoire de Vision et d'Apprentissage de l'Université de Fudan, en collaboration avec Microsoft, Huawei et d'autres institutions académiques, a publié la première revue du travail des modèles de diffusion sur les tâches vidéo, triant systématiquement l'application de modèles de diffusion en génération vidéo, vidéo Résultats académiques de pointe en matière de montage et de compréhension vidéo.
- Lien papier : https://arxiv.org/abs/2310.10647
- Lien vers la page d'accueil : https://github.com/ChenHsing/Awesome-Video-Diffusion-Models
Génération vidéo
Génération vidéo basée sur du texte : La génération vidéo avec le langage naturel comme entrée est l'une des tâches les plus importantes dans le domaine de la génération vidéo. L'auteur passe d'abord en revue les résultats de la recherche dans ce domaine avant que le modèle de diffusion ne soit proposé, puis présente respectivement des modèles de génération texte-vidéo basés sur la formation et sans formation.
Animation de neige d'hiver pour la célébration des vacances de l'arbre de Noël.
Génération vidéo basée sur d'autres conditions : La génération vidéo fonctionne dans des domaines de niche. L'auteur les classe en fonction des conditions suivantes : pose (pose guidée), action (guidée par le mouvement), son (guidée par le son), image (guidée par l'image), carte de profondeur (guidée en profondeur), etc.
Génération vidéo inconditionnelle : Cette tâche fait référence à la génération vidéo sans conditions d'entrée dans un domaine spécifique. Selon l'architecture du modèle, l'auteur est principalement divisé en U-Net. modèle génératif basé sur et basé sur un transformateur.
Achèvement vidéo : Comprend principalement l'amélioration et la restauration vidéo, la prédiction vidéo et d'autres tâches.
Ensemble de données : Les ensembles de données utilisés dans la tâche de génération de vidéo peuvent être divisés en deux catégories suivantes :
1.Niveau de légende : chaque vidéo a des informations de description de texte correspondantes, et la dernière le plus représentatif est l’ensemble de données WebVid10M.
2.Niveau de catégorie : les vidéos n'ont que des étiquettes de classification, mais aucune information de description textuelle. L'UCF-101 est actuellement l'ensemble de données le plus couramment utilisé pour des tâches telles que la génération vidéo et la prédiction vidéo.
Comparaison des indicateurs d'évaluation et des résultats : Les indicateurs d'évaluation générés par la vidéo sont principalement divisés en indicateurs d'évaluation de niveau qualité et indicateurs d'évaluation de niveau quantitatif. Les indicateurs d'évaluation de niveau qualité sont principalement basés sur des indicateurs manuels subjectifs. notation, tandis que le quantitatif Les indicateurs d'évaluation au niveau de l'image peuvent être divisés en :
1 Indicateurs d'évaluation au niveau de l'image : La vidéo est composée d'une série de cadres d'image, donc la méthode d'évaluation au niveau de l'image fait essentiellement référence à la indicateurs d’évaluation du modèle T2I.
2. Indicateurs d'évaluation au niveau vidéo : par rapport aux indicateurs d'évaluation au niveau de l'image, qui sont davantage orientés vers la mesure image par image, les indicateurs d'évaluation au niveau vidéo peuvent mesurer des aspects tels que la cohérence temporelle de la vidéo générée.
De plus, l'auteur a également effectué une comparaison horizontale des indicateurs d'évaluation des modèles génératifs susmentionnés sur l'ensemble de données de référence.
Montage vidéo
En passant au peigne fin de nombreuses études, l'auteur a découvert que l'objectif principal de la tâche de montage vidéo est d'atteindre :
1. Les images vidéo éditées doivent être cohérentes dans leur contenu avec la vidéo originale.
2. Alignement : la vidéo éditée doit être alignée sur les conditions d'entrée.
3. Haute qualité : La vidéo montée doit être cohérente et de haute qualité.
Montage vidéo basé sur texte : compte tenu de l'échelle limitée des données texte-vidéo existantes, la plupart des tâches de montage vidéo basées sur texte actuelles ont tendance à utiliser des modèles T2I pré-entraînés et à résoudre les images vidéo sur cette base, problèmes de cohérence et incohérence sémantique. L'auteur subdivise en outre ces tâches en méthodes basées sur la formation, sans formation et optimisées en une seule fois, et les résume respectivement.
Montage vidéo basé sur d'autres conditions : Avec l'avènement de l'ère des grands modèles, en plus des informations en langage naturel les plus directes comme le montage vidéo conditionnel, il est composé d'instructions, les sons, les actions, le montage vidéo multimode avec le statut et d'autres conditions comme condition reçoivent de plus en plus d'attention, et l'auteur a également classé et trié le travail correspondant.
Montage vidéo dans des domaines de niche spécifiques : certains travaux se concentrent sur la nécessité d'une personnalisation particulière des tâches de montage vidéo dans des domaines spécifiques, tels que la coloration vidéo, le montage vidéo en portrait, etc.
Compréhension vidéo
L'application du modèle de diffusion dans le domaine vidéo est allée bien au-delà des tâches traditionnelles de génération et d'édition de vidéo. Elle a également montré un grand potentiel dans les tâches de compréhension vidéo. En suivant des articles de pointe, l'auteur a résumé 10 scénarios d'application existants tels que la segmentation temporelle vidéo, la détection d'anomalies vidéo, la segmentation d'objets vidéo, la récupération de texte vidéo et la reconnaissance d'actions.
Future and Summary
Cette revue résume de manière complète et méticuleuse les dernières recherches sur les tâches vidéo dans le modèle de diffusion de l'ère AIGC. Elle classe et résume plus d'une centaine de travaux de pointe basés sur des objets de recherche et des caractéristiques techniques. Ces modèles sont comparés sur certains benchmarks classiques. De plus, le modèle de diffusion présente également de nouvelles orientations de recherche et de nouveaux défis dans le domaine des tâches vidéo, tels que :
1 Collecte d'ensembles de données texte-vidéo à grande échelle : le succès du modèle T2I est indissociable de centaines. De même, le modèle T2V nécessite également une grande quantité de données texte-vidéo haute résolution sans filigrane comme support.
2. Formation et inférence efficaces : par rapport aux données d'image, les données vidéo sont énormes et la puissance de calcul requise dans les étapes de formation et d'inférence a également augmenté de façon exponentielle. Des algorithmes de formation et d'inférence efficaces peuvent réduire considérablement les coûts.
3. Repères et indicateurs d'évaluation fiables : Les indicateurs d'évaluation existants dans le domaine de la vidéo mesurent souvent la différence de distribution entre la vidéo générée et la vidéo originale, mais ne parviennent pas à mesurer pleinement la qualité de la vidéo générée. Dans le même temps, les tests utilisateurs restent l’une des méthodes d’évaluation importantes. Étant donné qu’ils nécessitent beaucoup de main d’œuvre et sont très subjectifs, il existe un besoin urgent d’indicateurs d’évaluation plus objectifs et plus complets.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
