Maison Périphériques technologiques IA CVPR 2024 | Byte propose une nouvelle génération d'ensemble de données COCONut, plus dense que la segmentation granulaire COCO

CVPR 2024 | Byte propose une nouvelle génération d'ensemble de données COCONut, plus dense que la segmentation granulaire COCO

Apr 22, 2024 pm 04:20 PM
git 工程 视频编辑 cvpr2024 coconut

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com.

Avec le développement de l'intelligence artificielle, les modèles de langage et les modèles génératifs ont obtenu beaucoup de succès, et dans le processus de conception du modèle, le nombre de paramètres du modèle augmente également. Pour les tâches de compréhension fine, le nombre de paramètres du modèle augmente également. Cependant, il existe une contradiction entre l'échelle et la précision dans les ensembles de données existants. Par exemple, 99,1 % des masques de l'ensemble de données SA-1B sont générés par machine, mais il n'y a pas d'étiquettes sémantiques. Certains autres ensembles de données publics sont également précis. problèmes, et ceux-ci La taille de l'ensemble de données est généralement relativement petite.

Récemment, ByteDance a proposé une nouvelle génération d'ensembles de données de compréhension fine. En réponse aux besoins de conception des modèles d'apprentissage profond contemporains, un total de 383 000 images ont été annotées manuellement pour la segmentation panoramique et ont finalement atteint 5,18 millions. Le masque Zhang est à ce jour le plus grand ensemble de données de compréhension de segmentation panoramique avec des étiquettes artificielles, nommé COCONut. Ce résultat a été sélectionné pour le CVPR2024.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

  • Lien papier : https://arxiv.org/abs/2404.08639
  • Lien code et ensemble de données : https://xdeng7.github.io/coconut.github.io/

La vidéo montre la densité du masque et les statistiques de catégorie sémantique d'une seule image de COCONut. On peut voir que la sémantique de l'ensemble de données est riche et la granularité de segmentation du masque est bonne. L'ensemble de données prend également en charge diverses tâches de compréhension, telles que la segmentation panoramique, la segmentation d'instance, la segmentation sémantique, la détection d'objets, la génération sémantiquement contrôlée et la segmentation de vocabulaire ouvert, permettant d'obtenir des améliorations significatives des performances sur plusieurs tâches simplement en remplaçant l'ensemble de données.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Méthode d'annotation

Habituellement, l'utilisation uniquement de l'annotation manuelle est très coûteuse, ce qui est également une raison importante pour laquelle la plupart des ensembles de données publiques existantes ne peuvent pas augmenter d'échelle. Certains ensembles de données utilisent également directement les étiquettes générées par le modèle, mais souvent, ces étiquettes générées n'améliorent pas grandement la formation du modèle. Cet article le vérifie également. Par conséquent, cet article propose une nouvelle méthode d’annotation, combinée à une génération manuelle semi-automatique d’étiquettes. Cela peut non seulement garantir l'exactitude de l'annotation des données, mais également réduire le coût du travail manuel, tout en accélérant le processus d'annotation.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Comparaison de la précision des annotations

Les chercheurs ont comparé les annotations de COCONut et COCO sur la même image. D'après la comparaison dans la figure ci-dessous, nous pouvons voir que la méthode d'annotation proposée dans cet article atteint presque la même précision qu'une annotation purement manuelle à l'aide de Photoshop, mais la vitesse d'annotation est augmentée de plus de 10 fois.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Détails de l'ensemble de données COCONut

Par rapport à l'ensemble de données COCO existant, la distribution de chaque catégorie de l'ensemble de données est relativement similaire, mais la quantité totale de masques dans chaque image est supérieure à COCO ensemble de données, surtout lorsqu'il existe un grand nombre d'images uniques avec plus de 100 masques, ce qui montre que l'annotation de COCONut est plus raffinée et la segmentation granulaire est plus dense.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Vérification expérimentale

En plus de proposer un meilleur ensemble de formation, les chercheurs ont également constaté que l'ensemble de vérification existant ne peut pas bien refléter l'amélioration des performances du modèle, cet article propose donc également un ensemble de tests plus stimulant qui peut refléter l'amélioration du modèle est nommé COCONut-val Comme le montre le tableau ci-dessous, seul le remplacement de l'ensemble de données et un ensemble d'entraînement de plus grande précision peuvent apporter de grandes améliorations au modèle, par exemple atteindre plus de 4 pouces. segmentation panoramique. Un point PQ. Cependant, lorsque la taille de l'ensemble de formation augmente, on peut constater que les tests avec l'ensemble de test existant ne reflètent pas l'amélioration du modèle, tandis que COCONut-val peut refléter que le modèle présente encore des améliorations évidentes après avoir augmenté la quantité de formation. définir les données promouvoir.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

La figure suivante montre une comparaison des catégories sémantiques et de la densité des masques de l'ensemble de vérification. On peut voir que l'ensemble de vérification nouvellement proposé est plus difficile et peut mieux refléter l'amélioration du modèle.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

Pour plus de résultats expérimentaux, veuillez vous référer à l'article original. L'équipe fournira l'ensemble de données et le modèle correspondant pour téléchargement public sur la page d'accueil de GitHub.

ByteDance Intelligent Creation Team

L'équipe de création intelligente est l'équipe d'IA et de technologie multimédia de ByteDance, couvrant la vision par ordinateur, le montage audio et vidéo, le traitement des effets spéciaux et d'autres domaines techniques, avec l'aide de l'entreprise Des scénarios commerciaux riches, des ressources d'infrastructure et une atmosphère de collaboration technique réalisent une boucle fermée d'algorithmes de pointe - de systèmes d'ingénierie - de produits, visant à fournir une compréhension de contenu, une création de contenu et une interaction de pointe pour diverses entreprises au sein de l'entreprise sous diverses formes. . Expérience et capacités de consommation et solutions industrielles.

Actuellement, l'équipe de création intelligente a ouvert ses capacités techniques et ses services aux entreprises via Volcano Engine, une plateforme de services cloud appartenant à ByteDance. D’autres postes liés aux algorithmes de grands modèles s’ouvrent.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelles bibliothèques sont utilisées pour les opérations du numéro de point flottantes en Go? Quelles bibliothèques sont utilisées pour les opérations du numéro de point flottantes en Go? Apr 02, 2025 pm 02:06 PM

La bibliothèque utilisée pour le fonctionnement du numéro de point flottante dans le langage go présente comment s'assurer que la précision est ...

Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Gitee Pages STATIQUE Le déploiement du site Web a échoué: comment dépanner et résoudre les erreurs de fichier unique 404? Apr 04, 2025 pm 11:54 PM

GiteEpages STATIQUE Le déploiement du site Web a échoué: 404 Dépannage des erreurs et résolution lors de l'utilisation de Gitee ...

Quelles bibliothèques de GO sont développées par de grandes entreprises ou fournies par des projets open source bien connus? Quelles bibliothèques de GO sont développées par de grandes entreprises ou fournies par des projets open source bien connus? Apr 02, 2025 pm 04:12 PM

Quelles bibliothèques de GO sont développées par de grandes entreprises ou des projets open source bien connus? Lors de la programmation en Go, les développeurs rencontrent souvent des besoins communs, ...

Comment exécuter le projet H5 Comment exécuter le projet H5 Apr 06, 2025 pm 12:21 PM

L'exécution du projet H5 nécessite les étapes suivantes: Installation des outils nécessaires tels que le serveur Web, Node.js, les outils de développement, etc. Créez un environnement de développement, créez des dossiers de projet, initialisez les projets et écrivez du code. Démarrez le serveur de développement et exécutez la commande à l'aide de la ligne de commande. Aperçu du projet dans votre navigateur et entrez l'URL du serveur de développement. Publier des projets, optimiser le code, déployer des projets et configurer la configuration du serveur Web.

Comment obtenir les données de la région d'expédition de la version à l'étranger? Quelles sont les ressources prêtes à l'emploi disponibles? Comment obtenir les données de la région d'expédition de la version à l'étranger? Quelles sont les ressources prêtes à l'emploi disponibles? Apr 01, 2025 am 08:15 AM

Description de la question: Comment obtenir les données de la région d'expédition de la version à l'étranger? Y a-t-il des ressources prêtes à l'emploi disponibles? Soyez précis dans le commerce électronique transfrontalier ou les entreprises mondialisées ...

Dessin graphique de sablier Python: comment éviter les erreurs variables non définies? Dessin graphique de sablier Python: comment éviter les erreurs variables non définies? Apr 01, 2025 pm 06:27 PM

Précision avec Python: Source de sablier Dessin graphique et vérification d'entrée Cet article résoudra le problème de définition variable rencontré par un novice Python dans le programme de dessin graphique de sablier. Code...

Comment résoudre le problème de conversion de type user_id lors de l'utilisation du flux redis pour implémenter les files d'attente de messages dans le langage Go? Comment résoudre le problème de conversion de type user_id lors de l'utilisation du flux redis pour implémenter les files d'attente de messages dans le langage Go? Apr 02, 2025 pm 04:54 PM

Le problème de l'utilisation de Redessstream pour implémenter les files d'attente de messages dans le langage GO consiste à utiliser le langage GO et redis ...

Comment spécifier la base de données associée au modèle de Beego ORM? Comment spécifier la base de données associée au modèle de Beego ORM? Apr 02, 2025 pm 03:54 PM

Dans le cadre du cadre de beegoorm, comment spécifier la base de données associée au modèle? De nombreux projets Beego nécessitent que plusieurs bases de données soient opérées simultanément. Lorsque vous utilisez Beego ...

See all articles