


Est-ce vraiment si doux et soyeux ? Le groupe de Hinton a proposé un cadre de segmentation d'instance basé sur de grands masques panoramiques, qui permet une commutation fluide des scènes d'image et vidéo.
La segmentation panoramique est une tâche de vision fondamentale qui vise à attribuer des étiquettes sémantiques et des étiquettes d'instance à chaque pixel d'une image. Les étiquettes sémantiques décrivent la catégorie de chaque pixel (par exemple ciel, objet vertical, etc.) et les étiquettes d'instance fournissent un identifiant unique pour chaque instance de l'image (pour distinguer différentes instances de la même catégorie). Cette tâche combine la segmentation sémantique et la segmentation d'instance pour fournir des informations sémantiques riches sur la scène.
Bien que les catégories d'étiquettes sémantiques soient fixées a priori, les identifiants d'instance attribués aux objets dans l'image peuvent être interchangés sans affecter la reconnaissance. Par exemple, l'échange des ID d'instance de deux véhicules n'affecte pas les résultats. Par conséquent, un réseau neuronal entraîné à prédire les ID d’instance devrait être capable d’apprendre un mappage un-à-plusieurs à partir d’une seule image vers plusieurs attributions d’ID d’instance. L'apprentissage des mappages un-à-plusieurs est un défi, et les méthodes traditionnelles utilisent souvent des pipelines en plusieurs étapes, notamment la détection d'objets, la segmentation et la fusion de plusieurs prédictions. Récemment, sur la base de la correspondance de graphes bipartis différenciables, certains chercheurs ont proposé des méthodes de bout en bout capables de convertir efficacement le mappage un-à-plusieurs en un mappage un-à-un basé sur la correspondance de reconnaissance. Cependant, ces méthodes nécessitent toujours des architectures personnalisées et des fonctions de perte spécialisées, ainsi que des biais inductifs intégrés pour les tâches de segmentation panoramique.
Les modèles de vision généraux récents, tels que Pix2Seq, OFA, UViM et Unified I/O, préconisent des cadres généraux et sans tâches pour réaliser des tâches de généralisation tout en étant beaucoup plus simples que les modèles précédents. Par exemple, Pix2Seq génère une série de séquences sémantiquement significatives basées sur des images pour accomplir certaines tâches visuelles de base, et ces modèles sont basés sur des Transformers pour former des modèles autorégressifs.
Dans un nouvel article, des chercheurs tels que Ting Chen et Geoffrey Hinton de Google Brain suivent le même concept et comprennent le problème de la tâche de segmentation panoramique du point de vue de la génération de données discrètes conditionnelles.
Lien papier https://arxiv.org/pdf/2210.06366.pdf
Comme le montre la figure 1, le chercheur a conçu un modèle génératif pour les masques panoramiques et a entré chaque image du Le modèle génère un ensemble de jetons discrets. Les utilisateurs peuvent appliquer ce modèle aux données vidéo (données en ligne/médias en streaming) simplement en utilisant les prédictions des images passées comme signaux conditionnels supplémentaires. De cette façon, le modèle apprend automatiquement à suivre et segmenter les objets.
La modélisation générative de la segmentation panoramique est très difficile car les masques panoramiques sont discrets, ou catégoriques, et le modèle peut être très grand. Par exemple, pour générer un masque panoramique 512 × 1024, le modèle doit générer plus de 1 million de balises discrètes (étiquettes sémantiques et d'instance). Cela reste relativement coûteux pour les modèles autorégressifs car les jetons sont de nature séquentielle et difficiles à modifier à mesure que l'échelle des données d'entrée change. Les modèles de diffusion sont plus efficaces pour gérer les données de grande dimension, mais ils sont le plus souvent appliqués dans des domaines continus plutôt que discrets. En représentant des données discrètes avec des bits analogiques, les auteurs montrent que les modèles de diffusion peuvent être entraînés directement sur de grands masques panoramiques sans avoir besoin d'apprendre un espace latent.
Grâce à des expériences approfondies, les chercheurs ont démontré que leur méthode générale peut rivaliser avec les méthodes expertes de pointe dans des environnements similaires.
Architecture du modèle
L'échantillonnage du modèle de diffusion est effectué de manière itérative, de sorte que la transmission directe du réseau doit être exécutée plusieurs fois pendant l'inférence. Par conséquent, comme le montre la figure 2, les chercheurs ont intentionnellement divisé le réseau en deux composants : 1) encodeur d’image 2) décodeur de masque ; Le premier mappe les données brutes de pixels sur des vecteurs de représentation de haut niveau, puis le décodeur de masque lit de manière itérative le masque panoramique.
Encodeur de pixels/images
L'encodeur est un réseau qui mappe l'image originale à la carte des caractéristiques dans
, où H' et w' sont la hauteur et la largeur du masque panoramique. Le masque panoramique peut être de la même taille que l'image originale ou plus petit. Dans ce travail, les chercheurs ont utilisé ResNet comme réseau fédérateur, puis la couche d’encodeur de Transformer comme extracteur de fonctionnalités. Afin de garantir que la carte des caractéristiques de sortie a une résolution suffisante et contient des caractéristiques à différentes échelles, inspirées de l'U-Net et du réseau pyramidal des caractéristiques, les chercheurs ont utilisé la convolution avec des connexions bilatérales et des opérations de suréchantillonnage pour fusionner des caractéristiques de différentes résolutions. Bien que des encodeurs plus complexes puissent être utilisés, qui peuvent utiliser certaines des dernières avancées en matière de conception architecturale, ce n'est pas l'objectif principal du modèle de réseau. Les chercheurs utilisent donc simplement des extracteurs de fonctionnalités plus simples pour illustrer son rôle dans le modèle.
Mask Decoder
Le décodeur affine de manière itérative le masque panoramique en fonction des caractéristiques de l'image lors de l'inférence du modèle. Plus précisément, le décodeur de masques utilisé par les chercheurs est TransUNet. Le réseau prend en entrée la concaténation d'une carte de caractéristiques d'image provenant du codeur et d'un masque de bruit (soit initialisé de manière aléatoire, soit de manière itérative à partir du processus de codage) et génère une prédiction précise du masque. Une différence entre le décodeur et l'architecture U-Net standard pour la génération d'images et la conversion image à image est que l'U-Net utilisé dans cet article utilise une couche de décodeur de transformateur avec une couche d'attention croisée au-dessus avant le suréchantillonnage pour fusionner. caractéristiques de l'image codée.
Application en mode vidéo
Le chercheur modélise le masque panoramique dans les conditions d'image telles que : p(m|x). Basé sur le masque tridimensionnel d'une vidéo donnée (avec une dimension temporelle supplémentaire), notre modèle peut être directement appliqué à la segmentation vidéo panoramique. Afin de s'adapter aux paramètres vidéo en ligne/streaming, la modélisation p(m_t|x_t,m_(t-1),m_(t-k)) peut être utilisée à la place pour générer un nouveau panorama basé sur l'image actuelle et le masque de la précédente. moment masque. Comme le montre la figure 5, ce changement peut être obtenu en concaténant le masque panoramique passé (m_(t-1), m_(t-k)) avec le masque de bruit existant. Hormis ce changement mineur, tout le reste est identique au modèle de base vidéo (p(m|x)). Ce modèle est très simple et peut être appliqué aux scènes vidéo en affinant le modèle de panorama d'image.
Résultats expérimentaux
Cet article compare avec deux séries de méthodes de pointe, à savoir les méthodes expertes et les méthodes générales. Le tableau 1 résume les résultats sur l'ensemble de données MS-COCO. La qualité de généralisation (PQ) de Pix2Seq-D sur le squelette basé sur ResNet-50 est compétitive par rapport aux méthodes de pointe. Comparé à d’autres modèles récents à usage général tels que UViM, notre modèle est nettement plus performant tout en étant plus efficace.
Le Tableau 2 compare Pix2Seq-D avec les méthodes de pointe pour la segmentation d'objets vidéo non supervisée sur l'ensemble de données DAVIS, en utilisant les métriques J&F standard. Il convient de noter que la référence n’inclut pas d’autres modèles généraux puisqu’ils ne sont pas directement applicables à la tâche. Notre méthode permet d’obtenir les mêmes résultats que les méthodes de pointe sans conception particulière.
Les figures 8, 9 et 10 montrent des exemples de résultats de Pix2Seq-D sur MS-COCO, Cityscape et DAVIS.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,
