Table des matières
Introduction
Résultats expérimentaux
Maison Périphériques technologiques IA Basée sur le transfert d'éléments multimodaux, la méthode de segmentation d'objets vidéo de référence de l'Université de technologie Meitu & Dalian ne nécessite qu'une seule étape

Basée sur le transfert d'éléments multimodaux, la méthode de segmentation d'objets vidéo de référence de l'Université de technologie Meitu & Dalian ne nécessite qu'une seule étape

Apr 08, 2023 pm 09:21 PM
框架 迁移

Introduction

Referring VOS (RVOS) est une tâche nouvellement émergente, qui vise à segmenter les objets référencés par le texte à partir d'une séquence vidéo basée sur le texte de référence. Comparé à la segmentation d'objets vidéo semi-supervisée, RVOS s'appuie uniquement sur des descriptions de langage abstrait au lieu de masques de référence au niveau des pixels, offrant une option plus pratique pour l'interaction homme-machine et a donc reçu une large attention. L'objectif principal de cette recherche est de résoudre les problèmes rencontrés dans les RVOS existants. tâches Deux défis majeurs :

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Comment fusionner les informations textuelles et les informations image entre les modalités, afin de maintenir la cohérence d'échelle entre les deux modalités et d'intégrer pleinement les références de fonctionnalités utiles fournies par le texte dans les fonctionnalités de l'image

 ; Comment abandonner la stratégie en deux étapes des méthodes existantes (c'est-à-dire obtenir d'abord un résultat approximatif image par image au niveau de l'image, puis utiliser le résultat comme référence et obtenir la prédiction finale grâce à un raffinement structurel avec des informations temporelles améliorées ), unifiant l'ensemble de la tâche RVOS dans un cadre en une seule étape.

À cet égard, cette recherche propose un cadre RVOS de bout en bout pour la

  • migration d'éléments intermodaux - YOFO
  • Ses principales contributions et innovations sont :
seulement Cela nécessite. raisonnement en une seule étape pour obtenir directement les résultats de segmentation des cibles vidéo à l'aide d'informations textuelles de référence. Les résultats obtenus sur deux ensembles de données grand public - Ref-DAVIS2017 et Ref-Youtube-VOS surpassent toutes les méthodes actuelles en deux étapes ; Module Meta-Transfer pour améliorer les informations temporelles, permettant ainsi un apprentissage des fonctionnalités plus axé sur la cible ;

Propose un module d'exploration de fonctionnalités multi-échelles multimodales (Multi-Scale Cross -Modal Feature Mining), qui peut intégrer pleinement des fonctionnalités utiles ; en langage et en images. Stratégie de mise en œuvre

    Le processus principal du framework YOFO est le suivant : les images et les textes d'entrée sont d'abord extraits respectivement par l'encodeur d'image et l'encodeur de langue, puis fusionnés dans la fonctionnalité multi-échelle multimodale module minier. Les caractéristiques bimodales fusionnées sont simplifiées dans le module de méta-transfert qui contient la bibliothèque de mémoire pour éliminer les informations redondantes dans les caractéristiques du langage. En même temps, les informations temporelles peuvent être préservées pour améliorer la corrélation temporelle, et finalement les résultats de segmentation sont obtenus grâce à une méthode de segmentation. décodeur.
  • Figure 1 : Processus principal du framework YOFO.

Module d'exploration de fonctionnalités multimodales multi-échelles

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape : Ce module peut maintenir la relation entre les informations d'échelle véhiculées par les caractéristiques de l'image et les caractéristiques du langage en fusionnant progressivement deux caractéristiques modales d'échelles différentes. La cohérence, et plus important encore, garantit que les informations linguistiques ne seront pas diluées et submergées par des informations d'images multi-échelles pendant le processus de fusion.

Figure 2 : Module d'exploration de fonctionnalités multimodales et multi-échelles.

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Module de méta-migration : Une stratégie d'apprentissage à apprendre est adoptée, et le processus peut être simplement décrit comme la fonction de cartographie suivante. Où la fonction de migration est une convolution, alors est son paramètre de noyau de convolution :

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Le processus d'optimisation peut être exprimé comme la fonction objectif suivante :

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Parmi elles, M représente la banque de mémoire qui peut stocker des informations historiques, et W représente le poids des différentes positions, ce qui peut donner différentes positions pour différentes caractéristiques. Le degré d'attention, Y, représente les caractéristiques bimodales de chaque image vidéo stockée dans la banque de mémoire. Ce processus d'optimisation maximise la capacité de la fonction de méta-transfert à reconstruire les fonctionnalités bimodales et permet également à l'ensemble du framework d'être formé de bout en bout.

Formation et tests : La fonction de perte utilisée dans la formation est la perte lovasz, et l'ensemble de formation est constitué de deux ensembles de données vidéo Ref-DAVIS2017 et Ref-Youtube-VOS, et est réalisé via l'ensemble de données statiques Ref -La transformation affine aléatoire COCO simule les données vidéo comme formation auxiliaire. Le processus de méta-migration est effectué pendant la formation et la prédiction, et l'ensemble du réseau fonctionne à une vitesse de 10 FPS sur 1080ti.

Résultats expérimentaux

La méthode utilisée dans la recherche a obtenu d'excellents résultats sur deux ensembles de données RVOS grand public (Ref-DAVIS2017 et Ref-Youtube-VOS). Les indicateurs quantitatifs et certains rendus de visualisation sont les suivants :

. Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Figure 3 : Indicateurs quantitatifs sur deux ensembles de données principales.

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Figure 4 : Visualisation sur l'ensemble de données VOS.

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Figure 5 : Autres effets de visualisation de YOFO.

L'étude a également mené une série d'expériences d'ablation pour illustrer l'efficacité du module d'exploration de fonctionnalités (FM) et du module de méta-transfert (MT).

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Figure 6 : Efficacité du module d'exploration de fonctionnalités (FM) et du module de méta-transfert (MT).

De plus, l'étude a visualisé les caractéristiques de sortie du décodeur utilisant le module MT et n'utilisant pas le module MT. On voit clairement que le module MT peut capturer correctement le contenu décrit par le langage et effectuer des bruits d'interférence. .filtrer.

Basée sur le transfert déléments multimodaux, la méthode de segmentation dobjets vidéo de référence de lUniversité de technologie Meitu & Dalian ne nécessite quune seule étape

Figure 7 : Comparaison des fonctionnalités de sortie du décodeur avant et après l'utilisation du module MT. À propos de l'équipe de recherche

Cet article a été proposé conjointement par des chercheurs du Meitu Imaging Research Institute (MT Lab) et l'équipe Lu Huchuan de l'Université de technologie de Dalian. Le Meitu Imaging Research Institute (MT Lab) est l'équipe de Meitu dédiée à la recherche d'algorithmes, au développement technique et à la production dans les domaines de la vision par ordinateur, de l'apprentissage automatique, de la réalité augmentée, du cloud computing et d'autres domaines. Elle constitue la base des produits existants et futurs de Meitu. Il fournit un support d'algorithme de base et favorise le développement de produits Meitu grâce à une technologie de pointe. Il est connu sous le nom de « Centre technologique Meitu ». Il a participé aux principales conférences internationales de vision par ordinateur telles que CVPR, ICCV et ECCV, et en a remporté davantage. plus de dix championnats et finalistes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment évaluer la rentabilité du support commercial des frameworks Java Comment évaluer la rentabilité du support commercial des frameworks Java Jun 05, 2024 pm 05:25 PM

L'évaluation du rapport coût/performance du support commercial pour un framework Java implique les étapes suivantes : Déterminer le niveau d'assurance requis et les garanties de l'accord de niveau de service (SLA). L’expérience et l’expertise de l’équipe d’appui à la recherche. Envisagez des services supplémentaires tels que les mises à niveau, le dépannage et l'optimisation des performances. Évaluez les coûts de support commercial par rapport à l’atténuation des risques et à une efficacité accrue.

Comment la courbe d'apprentissage des frameworks PHP se compare-t-elle à celle d'autres frameworks de langage ? Comment la courbe d'apprentissage des frameworks PHP se compare-t-elle à celle d'autres frameworks de langage ? Jun 06, 2024 pm 12:41 PM

La courbe d'apprentissage d'un framework PHP dépend de la maîtrise du langage, de la complexité du framework, de la qualité de la documentation et du support de la communauté. La courbe d'apprentissage des frameworks PHP est plus élevée par rapport aux frameworks Python et inférieure par rapport aux frameworks Ruby. Par rapport aux frameworks Java, les frameworks PHP ont une courbe d'apprentissage modérée mais un temps de démarrage plus court.

Comment les options légères des frameworks PHP affectent-elles les performances des applications ? Comment les options légères des frameworks PHP affectent-elles les performances des applications ? Jun 06, 2024 am 10:53 AM

Le framework PHP léger améliore les performances des applications grâce à une petite taille et une faible consommation de ressources. Ses fonctionnalités incluent : une petite taille, un démarrage rapide, une faible utilisation de la mémoire, une vitesse de réponse et un débit améliorés et une consommation de ressources réduite. Cas pratique : SlimFramework crée une API REST, seulement 500 Ko, une réactivité élevée et un débit élevé.

Comparaison des performances des frameworks Java Comparaison des performances des frameworks Java Jun 04, 2024 pm 03:56 PM

Selon les benchmarks, pour les petites applications hautes performances, Quarkus (démarrage rapide, mémoire faible) ou Micronaut (TechEmpower excellent) sont des choix idéaux. SpringBoot convient aux grandes applications full-stack, mais a des temps de démarrage et une utilisation de la mémoire légèrement plus lents.

Bonnes pratiques en matière de documentation du framework Golang Bonnes pratiques en matière de documentation du framework Golang Jun 04, 2024 pm 05:00 PM

La rédaction d'une documentation claire et complète est cruciale pour le framework Golang. Les meilleures pratiques incluent le respect d'un style de documentation établi, tel que le Go Coding Style Guide de Google. Utilisez une structure organisationnelle claire, comprenant des titres, des sous-titres et des listes, et fournissez la navigation. Fournit des informations complètes et précises, notamment des guides de démarrage, des références API et des concepts. Utilisez des exemples de code pour illustrer les concepts et l'utilisation. Maintenez la documentation à jour, suivez les modifications et documentez les nouvelles fonctionnalités. Fournir une assistance et des ressources communautaires telles que des problèmes et des forums GitHub. Créez des exemples pratiques, tels que la documentation API.

Comment choisir le meilleur framework Golang pour différents scénarios d'application Comment choisir le meilleur framework Golang pour différents scénarios d'application Jun 05, 2024 pm 04:05 PM

Choisissez le meilleur framework Go en fonction des scénarios d'application : tenez compte du type d'application, des fonctionnalités du langage, des exigences de performances et de l'écosystème. Frameworks Go courants : Gin (application Web), Echo (service Web), Fibre (haut débit), gorm (ORM), fasthttp (vitesse). Cas pratique : construction de l'API REST (Fiber) et interaction avec la base de données (gorm). Choisissez un framework : choisissez fasthttp pour les performances clés, Gin/Echo pour les applications Web flexibles et gorm pour l'interaction avec la base de données.

Explication pratique détaillée du développement du framework Golang : questions et réponses Explication pratique détaillée du développement du framework Golang : questions et réponses Jun 06, 2024 am 10:57 AM

Dans le développement du framework Go, les défis courants et leurs solutions sont les suivants : Gestion des erreurs : utilisez le package d'erreurs pour la gestion et utilisez un middleware pour gérer les erreurs de manière centralisée. Authentification et autorisation : intégrez des bibliothèques tierces et créez un middleware personnalisé pour vérifier les informations d'identification. Traitement simultané : utilisez des goroutines, des mutex et des canaux pour contrôler l'accès aux ressources. Tests unitaires : utilisez les packages, les simulations et les stubs gotest pour l'isolation, ainsi que les outils de couverture de code pour garantir la suffisance. Déploiement et surveillance : utilisez les conteneurs Docker pour regrouper les déploiements, configurer les sauvegardes de données et suivre les performances et les erreurs avec des outils de journalisation et de surveillance.

Quels sont les malentendus courants dans le processus d'apprentissage du framework Golang ? Quels sont les malentendus courants dans le processus d'apprentissage du framework Golang ? Jun 05, 2024 pm 09:59 PM

Il existe cinq malentendus dans l'apprentissage du framework Go : une dépendance excessive à l'égard du framework et une flexibilité limitée. Si vous ne respectez pas les conventions du framework, le code sera difficile à maintenir. L'utilisation de bibliothèques obsolètes peut entraîner des problèmes de sécurité et de compatibilité. L'utilisation excessive de packages obscurcit la structure du code. Ignorer la gestion des erreurs entraîne un comportement inattendu et des plantages.

See all articles