


Invite à découper des images en un seul clic ! Meta lance le premier modèle de segmentation d'image de base de l'histoire, créant un nouveau paradigme pour le CV
Tout à l'heure, Meta AI a publié Segment Anything Model (SAM) - le premier modèle de base pour la segmentation d'images.
SAM peut réaliser une segmentation en un clic de n'importe quel objet à partir de photos ou de vidéos, et peut migrer vers d'autres tâches sans aucun échantillon.
Dans l'ensemble, SAM suit les idées du modèle de base :
1. Une architecture très simple mais évolutive qui peut gérer des invites multimodales : texte, points clés, cadres de délimitation.
2. Processus d'annotation intuitif, étroitement lié à la conception du modèle.
3. Un volant de données qui permet d'amorcer des modèles sur de grandes quantités d'images non étiquetées.
Et il n'est pas exagéré de dire que SAM a appris le concept général d'"objets", même pour les objets inconnus, les scènes peu familières (comme sous l'eau et au microscope) et les cas ambigus.
De plus, le SAM peut également être généralisé à de nouvelles tâches et de nouveaux domaines, et les praticiens n'ont plus besoin d'affiner eux-mêmes le modèle.
Adresse papier : https://ai.facebook.com/research/publications/segment-anything/
La chose la plus puissante est que Meta implémente un paradigme de CV complètement différent, vous pouvez Dans un unifié Encodeur d'invite de framework, spécifiez un point, un cadre de délimitation et une phrase pour segmenter directement l'objet en un seul clic.
À cet égard, Jin Tian, expert en algorithmes d'IA de Tencent, a déclaré : « Le paradigme d'invite dans le domaine de la PNL a commencé à s'étendre au domaine du CV. Et cette fois, il pourrait complètement changer la pensée traditionnelle de prédiction du CV. vous pouvez vraiment le faire. Utilisez un modèle pour segmenter n'importe quel objet de manière dynamique !"
Jim Fan, scientifique en IA chez NVIDIA, a même fait l'éloge de ceci : Nous avons atteint le "moment GPT-3" dans le domaine de la vision par ordinateur !
Alors le CV n’existe vraiment plus ?
SAM : "Découpez" tous les objets de n'importe quelle image en un seul clic
Segment Anything est le premier modèle de base dédié à la segmentation d'images.
La segmentation fait référence à l'identification des pixels d'une image appartenant à un objet et a toujours été la tâche principale de la vision par ordinateur.
Cependant, si vous souhaitez créer un modèle de segmentation précis pour une tâche spécifique, cela nécessite généralement un travail hautement spécialisé de la part d'experts. Ce processus nécessite une infrastructure de formation en IA et une grande quantité de données dans le domaine soigneusement étiquetées, donc le seuil. est extrêmement élevé.
Afin de résoudre ce problème, Meta a proposé un modèle de base pour la segmentation d'images-SAM. Ce modèle indicatif, formé sur diverses données, est non seulement adaptable à une variété de tâches, mais fonctionne également de la même manière que les indices sont utilisés dans les modèles PNL.
Le modèle SAM saisit le concept de « qu'est-ce qu'un objet » et peut générer un masque pour n'importe quel objet dans n'importe quelle image ou vidéo, même pour les objets qu'il n'a pas vus pendant la formation.
SAM est si polyvalent qu'il couvre une variété de cas d'utilisation et peut être utilisé immédiatement dans de nouveaux domaines d'imagerie sans formation supplémentaire, qu'il s'agisse de photos sous-marines ou de microscopie cellulaire. En d’autres termes, SAM a déjà la capacité de migrer sans échantillon.
Meta a déclaré avec enthousiasme sur le blog : On peut s'attendre à ce qu'à l'avenir, SAM soit utilisé dans toute application nécessitant de rechercher et de segmenter des objets dans des images.
SAM peut faire partie d'un système d'IA plus vaste pour développer une compréhension multimodale plus générale du monde, comme la compréhension du contenu visuel et textuel des pages Web.
Dans le domaine de l'AR/VR, SAM peut sélectionner des objets en fonction de la ligne de mire de l'utilisateur, puis « mettre à niveau » les objets en 3D.
Pour les créateurs de contenu, SAM peut extraire des zones d'image pour un collage ou un montage vidéo.
SAM peut également localiser et suivre des animaux ou des objets dans des vidéos, aidant ainsi la recherche en sciences naturelles et en astronomie.
Méthode de segmentation universelle
Dans le passé, il y avait deux façons de résoudre le problème de segmentation.
L'une est la segmentation interactive, qui peut segmenter des objets de n'importe quelle catégorie, mais nécessite d'affiner le masque par itération.
La seconde est la segmentation automatique, qui permet de segmenter des objets spécifiques définis à l'avance, mais le processus de formation nécessite une grande quantité d'annotations manuelles d'objets (par exemple, pour segmenter un chat, des milliers d'exemples sont nécessaires).
En bref, aucune de ces deux méthodes ne peut fournir une méthode de segmentation universelle et entièrement automatique.
Et SAM peut être vu comme une généralisation de ces deux méthodes, il peut facilement effectuer une segmentation interactive et une segmentation automatique.
Sur l'interface d'invite du modèle, un large éventail de tâches de segmentation peut être effectué en concevant simplement les invites correctes (clics, zones, texte, etc.) pour le modèle.
De plus, SAM est formé sur un ensemble de données diversifié et de haute qualité contenant plus d'un milliard de masques, permettant au modèle de se généraliser à de nouveaux objets et images au-delà de ce qu'il a observé pendant la formation. En conséquence, les praticiens n’ont plus besoin de collecter leurs propres données de segmentation pour affiner les modèles en fonction des cas d’utilisation.
Ce type de flexibilité qui peut être généralisé à de nouvelles tâches et de nouveaux domaines est une première dans le domaine de la segmentation d'images.
(1) SAM permet aux utilisateurs de segmenter des objets en un seul clic ou de cliquer de manière interactive sur de nombreux points, et peut également utiliser des indices de cadre de délimitation pour le modèle.
(2) Face à l'ambiguïté des objets segmentés, SAM peut générer plusieurs masques valides, ce qui constitue une capacité essentielle pour résoudre les problèmes de segmentation dans le monde réel.
(3) SAM peut découvrir et bloquer automatiquement tous les objets de l'image. (4) Après avoir précalculé les intégrations d'images, SAM peut générer des masques de segmentation pour n'importe quelle invite en temps réel, permettant aux utilisateurs d'interagir avec le modèle en temps réel.
Comment ça marche
Le SAM formé par les chercheurs peut renvoyer des masques de segmentation valides pour n'importe quelle invite. Les indices peuvent être des points de premier plan/arrière-plan, des zones ou des masques approximatifs, du texte de forme libre ou généralement toute information indiquant qu'une segmentation est nécessaire dans l'image.
L'exigence d'un masque valide signifie simplement que même dans les cas où l'indice est ambigu et peut faire référence à plusieurs objets (par exemple, un point sur une chemise peut représenter une chemise ou une personne portant une chemise), le résultat doit être un de ces objets masque raisonnable.
Les chercheurs ont observé que les tâches de pré-formation et la collecte de données interactive imposent des contraintes spécifiques sur la conception des modèles.
En particulier, le modèle doit s'exécuter en temps réel sur le CPU dans un navigateur Web afin que le personnel standard puisse interagir efficacement avec SAM en temps réel pour l'annotation.
Bien que les contraintes d'exécution impliquent un compromis entre la qualité et la durée d'exécution, les chercheurs ont découvert qu'en pratique, des conceptions simples peuvent donner de bons résultats.
L'encodeur d'images de SAM produit des intégrations uniques pour les images, tandis que le décodeur léger convertit à la volée tous les indices en intégrations vectorielles. Ces deux sources d’informations sont ensuite combinées dans un décodeur léger qui prédit les masques de segmentation.
Après avoir calculé l'intégration de l'image, SAM peut générer un morceau d'image en seulement 50 millisecondes et donner n'importe quelle invite dans le navigateur Web.
Le dernier modèle SAM a été formé sur 256 images A100 pendant 68 heures (près de 5 jours).
Démonstration du projet
Invites de saisie multiples
Les invites pour spécifier le contenu à segmenter dans l'image peuvent réaliser diverses tâches de segmentation sans formation supplémentaire.
Utilisez des points et des cases interactifs comme invites
Segmentez automatiquement tous les éléments de l'image
est ambigu Les invites sont générées plusieurs masques valides
Conception à invite
SAM peut accepter les invites de saisie d'autres systèmes.
Par exemple, sélectionnez l'objet correspondant en fonction des informations de mise au point visuelle de l'utilisateur provenant du casque AR/VR. Le développement par Meta d’une IA capable de comprendre le monde réel ouvrira la voie à son futur voyage métavers.
Vous pouvez également implémenter la segmentation texte-objet à l'aide des conseils de cadre de délimitation du détecteur d'objet.
Sortie évolutive
Les masques de sortie peuvent être utilisés comme entrée dans d'autres systèmes d'IA.
Par exemple, le masque d'un objet peut être suivi dans une vidéo, transformé en 3D via des applications d'édition d'imagerie ou utilisé pour des tâches créatives telles que le collage.
Généralisation sans tir
SAM apprend une idée générale de ce qu'est un objet - cette compréhension lui permet de faire des généralisations sans tir à des objets et des images inconnus, tandis qu'aucun supplément une formation est nécessaire.
Divers avis
Sélectionnez Hover&Click, cliquez sur Ajouter un masque et un vert Cliquez, un point rouge apparaîtra après avoir cliqué sur Supprimer la zone, mangez Le Huahua d'Apple a été immédiatement encerclé.
Dans la fonction Box, sélectionnez simplement la case et la reconnaissance sera terminée immédiatement.
Après avoir cliqué sur Tout, tous les objets reconnus par le système seront immédiatement extraits.
Après avoir choisi les découpes, vous obtiendrez une boulette triangulaire en quelques secondes.
Ensemble de données SA-1B : 11 millions d'images, 1,1 milliard de masques
En plus des nouveaux modèles publiés, Meta a également publié SA-1B, le plus grand ensemble de données de segmentation à ce jour.
Cet ensemble de données comprend 11 millions d'images diverses, haute résolution et préservant la confidentialité, et 1,1 milliard de masques de segmentation de haute qualité.
Les caractéristiques globales de l'ensemble de données sont les suivantes :
· Nombre total d'images : 11 millions
· Nombre total de masques : 1,1 milliard
· Masque moyen par image : 100
· Résolution moyenne de l'image : 1500 × 2250 pixels
REMARQUE : les annotations d'image ou de masque n'ont pas d'étiquettes de classe
Meta souligne que ces données sont collectées via notre moteur de données et que tous les masques sont entièrement générés par SAM Généré automatiquement.
Avec le modèle SAM, la collecte de nouveaux masques de segmentation est plus rapide que jamais, et l'annotation interactive d'un masque ne prend que 14 secondes environ.
Le processus d'annotation par masque est seulement 2 fois plus lent que l'annotation des cadres de délimitation. En utilisant l'interface d'annotation la plus rapide, l'annotation des cadres de délimitation prend environ 7 secondes.
L'annotation de masque entièrement manuelle basée sur des polygones du modèle SAM COCO est 6,5 fois plus rapide que les précédents efforts de collecte de données de segmentation à grande échelle et 2 fois plus rapide que le plus grand effort d'annotation de données précédent (également assisté par modèle).
Cependant, s'appuyer sur des masques d'annotation interactifs ne suffit pas pour créer plus d'un milliard d'ensembles de données masqués. Par conséquent, Meta a construit un moteur de données pour créer des ensembles de données SA-1B.
Ce moteur de données comporte trois "engrenages":
1. Annotation auxiliaire du modèle
2 Le mélange d'annotation entièrement automatique et d'annotation auxiliaire permet d'augmenter la diversité des masques collectés
3. . Création de masques entièrement automatisée, permettant l'évolutivité de l'ensemble de données
Notre ensemble de données final comprend plus de 1,1 milliard de masques de segmentation collectés sur environ 11 millions d'images autorisées et préservant la confidentialité.
SA-1B contient 400 fois plus de masques que n'importe quel ensemble de données de segmentation existant. Et les études d’évaluation humaine confirment que les masques sont de haute qualité et diversifiés et, dans certains cas, sont même qualitativement comparables aux masques précédents provenant d’ensembles de données plus petits et entièrement annotés manuellement.
Les images du SA-1B ont été obtenues grâce à des fournisseurs de photos de plusieurs pays, couvrant différentes zones géographiques et niveaux de revenus.
Bien que certaines zones géographiques soient encore sous-représentées, SA-1B possède plus d'images et une meilleure représentation globale dans toutes les régions que les ensembles de données de segmentation précédents.
Enfin, Meta espère que ces données pourront constituer la base de nouveaux ensembles de données comprenant des annotations supplémentaires, telles que des descriptions textuelles associées à chaque masque. "Le maître RBG dirige l'équipe" vision par ordinateur et apprentissage automatique.
En 2012, Ross Girshick a obtenu son doctorat en informatique de l'Université de Chicago sous la direction de Pedro Felzenszwalb.Avant de rejoindre FAIR, Ross était chercheur chez Microsoft Research et postdoctorant à l'Université de Californie à Berkeley, où ses mentors étaient Jitendra Malik et Trevor Darrell.
Il a reçu le PAMI Young Researcher Award en 2017, le PAMI Mark Everingham Award en 2017 et 2021 en reconnaissance de ses contributions aux logiciels open source.
Internautes : le CV n'existe vraiment plus
Meta a créé ce modèle de base de segmentation dans le domaine du CV, qui a fait crier de nombreux internautes "Maintenant, le CV n'existe vraiment plus."
Le méta-scientifique Justin Johnson a déclaré : « Pour moi, le moteur de données de Segment Anything et le RLHF de ChatGPT représentent une nouvelle ère d'intelligence artificielle à grande échelle. Plutôt que de tout apprendre à partir de données réseau bruyantes, nous pouvons intelligemment appliquer l'annotation humaine combinée au Big Data. "
Le seul regret est que la sortie du modèle SAM ait été principalement dirigée par Ross Girshick, mais He Yaming était absent.
L'ami "Matrix Mingzi" a déclaré que cet article prouve en outre que la multimodalité est l'avenir du CV et que le CV pur n'a pas de lendemain.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Pour créer un tableau de données à l'aide de PhpMyAdmin, les étapes suivantes sont essentielles: connectez-vous à la base de données et cliquez sur le nouvel onglet. Nommez le tableau et sélectionnez le moteur de stockage (InnODB recommandé). Ajouter les détails de la colonne en cliquant sur le bouton Ajouter une colonne, y compris le nom de la colonne, le type de données, s'il faut autoriser les valeurs nuls et d'autres propriétés. Sélectionnez une ou plusieurs colonnes comme clés principales. Cliquez sur le bouton Enregistrer pour créer des tables et des colonnes.

La création d'une base de données Oracle n'est pas facile, vous devez comprendre le mécanisme sous-jacent. 1. Vous devez comprendre les concepts de la base de données et des SGBD Oracle; 2. Master les concepts de base tels que SID, CDB (base de données de conteneurs), PDB (base de données enfichable); 3. Utilisez SQL * Plus pour créer CDB, puis créer PDB, vous devez spécifier des paramètres tels que la taille, le nombre de fichiers de données et les chemins; 4. Les applications avancées doivent ajuster le jeu de caractères, la mémoire et d'autres paramètres et effectuer un réglage des performances; 5. Faites attention à l'espace disque, aux autorisations et aux paramètres des paramètres, et surveillez et optimisez en continu les performances de la base de données. Ce n'est qu'en le maîtrisant habilement une pratique continue que vous pouvez vraiment comprendre la création et la gestion des bases de données Oracle.

Pour créer une base de données Oracle, la méthode commune consiste à utiliser l'outil graphique DBCA. Les étapes sont les suivantes: 1. Utilisez l'outil DBCA pour définir le nom DBN pour spécifier le nom de la base de données; 2. Définissez Syspassword et SystemPassword sur des mots de passe forts; 3. Définir les caractères et NationalCharacterset à Al32Utf8; 4. Définissez la taille de mémoire et les espaces de table pour s'ajuster en fonction des besoins réels; 5. Spécifiez le chemin du fichier log. Les méthodes avancées sont créées manuellement à l'aide de commandes SQL, mais sont plus complexes et sujets aux erreurs. Faites attention à la force du mot de passe, à la sélection du jeu de caractères, à la taille et à la mémoire de l'espace de table

Le cœur des instructions Oracle SQL est sélectionné, insérer, mettre à jour et supprimer, ainsi que l'application flexible de diverses clauses. Il est crucial de comprendre le mécanisme d'exécution derrière l'instruction, tel que l'optimisation de l'indice. Les usages avancés comprennent des sous-requêtes, des requêtes de connexion, des fonctions d'analyse et PL / SQL. Les erreurs courantes incluent les erreurs de syntaxe, les problèmes de performances et les problèmes de cohérence des données. Les meilleures pratiques d'optimisation des performances impliquent d'utiliser des index appropriés, d'éviter la sélection *, d'optimiser les clauses et d'utiliser des variables liées. La maîtrise d'Oracle SQL nécessite de la pratique, y compris l'écriture de code, le débogage, la réflexion et la compréhension des mécanismes sous-jacents.

Guide de fonctionnement du champ dans MySQL: Ajouter, modifier et supprimer les champs. Ajouter un champ: alter table table_name Ajouter Column_name data_type [pas null] [Default default_value] [Clé primaire] [Auto_increment] Modifier le champ: alter table table_name modifie Column_name data_type [pas null] [default default_value] [clé primaire]

Les requêtes imbriquées sont un moyen d'inclure une autre requête dans une requête. Ils sont principalement utilisés pour récupérer des données qui remplissent des conditions complexes, associer plusieurs tables et calculer des valeurs de résumé ou des informations statistiques. Les exemples incluent la recherche de salaires supérieurs aux employés, la recherche de commandes pour une catégorie spécifique et le calcul du volume des commandes totales pour chaque produit. Lorsque vous écrivez des requêtes imbriquées, vous devez suivre: écrire des sous-requêtes, écrire leurs résultats sur les requêtes extérieures (référencées avec des alias ou en tant que clauses) et optimiser les performances de la requête (en utilisant des index).

Les contraintes d'intégrité des bases de données Oracle peuvent garantir la précision des données, notamment: Not Null: les valeurs nulles sont interdites; Unique: garantie l'unicité, permettant une seule valeur nulle; Clé primaire: contrainte de clé primaire, renforcer unique et interdire les valeurs nulles; Clé étrangère: maintenir les relations entre les tableaux, les clés étrangères se réfèrent aux clés primaires primaires; Vérifiez: limitez les valeurs de colonne en fonction des conditions.

Oracle est la plus grande société de logiciels de gestion de base de données au monde (SGBD). Ses principaux produits incluent les fonctions suivantes: Outils de développement du système de gestion de la base de données relationnels (Oracle Database) (Oracle Apex, Oracle Visual Builder) Middleware (Oracle Weblogic Server, Oracle Soa Suite) Cloud Service (Oracle Cloud Infrastructure) Analyse et Oracle Blockchain Pla Intelligence (Oracle Analytic
