


Analyse des expressions faciales : intégration d'informations multimodales avec Transformer
Jan 23, 2024 am 10:24 AMPaper Introduction
L'analyse du comportement émotionnel humain a attiré beaucoup d'attention dans le domaine de l'interaction homme-machine (HCI). Cet article est destiné à présenter l'article que nous avons soumis au CVPR 2022 Affective Behaviour Analysis in-the-wild (ABAW). Pour exploiter pleinement les connaissances émotionnelles, nous utilisons des fonctionnalités multimodales, notamment le langage parlé, la prosodie de la parole et les expressions faciales extraites de clips vidéo dans l'ensemble de données Aff-Wild2. Sur la base de ces caractéristiques, nous proposons un cadre multimodal basé sur un transformateur pour la détection d'unités d'action et la reconnaissance d'expressions. Ce cadre contribue à une compréhension plus complète du comportement émotionnel humain et fournit de nouvelles orientations de recherche dans le domaine de l'interaction homme-machine.
Pour l'image du cadre actuel, nous l'encodons d'abord pour extraire les caractéristiques visuelles statiques. Dans le même temps, nous utilisons également des fenêtres coulissantes pour recadrer les images adjacentes et extraire trois caractéristiques multimodales des séquences d'images, d'audio et de texte. Ensuite, nous introduisons un module de fusion basé sur un transformateur pour fusionner des fonctionnalités visuelles statiques et des fonctionnalités multimodales dynamiques. Le module d'attention croisée de ce module de fusion permet de concentrer les fonctionnalités intégrées de sortie sur les éléments clés utiles pour les tâches de détection en aval. Afin d'améliorer encore les performances du modèle, nous avons adopté certaines techniques d'équilibrage des données, des techniques d'augmentation des données et des méthodes de post-traitement. Lors des tests officiels de l'ABAW3 Competition, notre modèle s'est classé premier sur les pistes EXPR et AU. Nous démontrons l’efficacité de notre méthode proposée grâce à des études approfondies d’évaluation quantitative et d’ablation sur l’ensemble de données Aff-Wild2.
Lien papier
https://arxiv.org/abs/2203.12367
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Article chaud

Outils chauds Tags

Article chaud

Tags d'article chaud

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Qu'est-ce que le protocole de contexte modèle (MCP)?

Construire un agent de vision local utilisant omniparser v2 et omnitool

Replit Agent: un guide avec des exemples pratiques

J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable!

Guide de la piste ACT-ONE: Je me suis filmé pour le tester

Elon Musk et Sam Altman s'affrontent plus de 500 milliards de dollars Stargate Project

Google & # 039; s Gencast: Prévision météorologique avec Mini démo Gencast

5 invites Grok 3 qui peuvent faciliter votre travail
