Table des matières
Paper Introduction
Lien papier
Maison Périphériques technologiques IA Analyse des expressions faciales : intégration d'informations multimodales avec Transformer

Analyse des expressions faciales : intégration d'informations multimodales avec Transformer

Jan 23, 2024 am 10:24 AM
articles académiques

Transformer-based Multimodal Information Fusion for Facial  Expression Analysis

Paper Introduction

L'analyse du comportement émotionnel humain a attiré beaucoup d'attention dans le domaine de l'interaction homme-machine (HCI). Cet article est destiné à présenter l'article que nous avons soumis au CVPR 2022 Affective Behaviour Analysis in-the-wild (ABAW). Pour exploiter pleinement les connaissances émotionnelles, nous utilisons des fonctionnalités multimodales, notamment le langage parlé, la prosodie de la parole et les expressions faciales extraites de clips vidéo dans l'ensemble de données Aff-Wild2. Sur la base de ces caractéristiques, nous proposons un cadre multimodal basé sur un transformateur pour la détection d'unités d'action et la reconnaissance d'expressions. Ce cadre contribue à une compréhension plus complète du comportement émotionnel humain et fournit de nouvelles orientations de recherche dans le domaine de l'interaction homme-machine.

Pour l'image du cadre actuel, nous l'encodons d'abord pour extraire les caractéristiques visuelles statiques. Dans le même temps, nous utilisons également des fenêtres coulissantes pour recadrer les images adjacentes et extraire trois caractéristiques multimodales des séquences d'images, d'audio et de texte. Ensuite, nous introduisons un module de fusion basé sur un transformateur pour fusionner des fonctionnalités visuelles statiques et des fonctionnalités multimodales dynamiques. Le module d'attention croisée de ce module de fusion permet de concentrer les fonctionnalités intégrées de sortie sur les éléments clés utiles pour les tâches de détection en aval. Afin d'améliorer encore les performances du modèle, nous avons adopté certaines techniques d'équilibrage des données, des techniques d'augmentation des données et des méthodes de post-traitement. Lors des tests officiels de l'ABAW3 Competition, notre modèle s'est classé premier sur les pistes EXPR et AU. Nous démontrons l’efficacité de notre méthode proposée grâce à des études approfondies d’évaluation quantitative et d’ablation sur l’ensemble de données Aff-Wild2.

Lien papier

https://arxiv.org/abs/2203.12367

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Qu'est-ce que le protocole de contexte modèle (MCP)? Qu'est-ce que le protocole de contexte modèle (MCP)? Mar 03, 2025 pm 07:09 PM

Qu'est-ce que le protocole de contexte modèle (MCP)?

Construire un agent de vision local utilisant omniparser v2 et omnitool Construire un agent de vision local utilisant omniparser v2 et omnitool Mar 03, 2025 pm 07:08 PM

Construire un agent de vision local utilisant omniparser v2 et omnitool

Replit Agent: un guide avec des exemples pratiques Replit Agent: un guide avec des exemples pratiques Mar 04, 2025 am 10:52 AM

Replit Agent: un guide avec des exemples pratiques

J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable! J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable! Mar 20, 2025 pm 03:34 PM

J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable!

Guide de la piste ACT-ONE: Je me suis filmé pour le tester Guide de la piste ACT-ONE: Je me suis filmé pour le tester Mar 03, 2025 am 09:42 AM

Guide de la piste ACT-ONE: Je me suis filmé pour le tester

Elon Musk et Sam Altman s'affrontent plus de 500 milliards de dollars Stargate Project Elon Musk et Sam Altman s'affrontent plus de 500 milliards de dollars Stargate Project Mar 08, 2025 am 11:15 AM

Elon Musk et Sam Altman s'affrontent plus de 500 milliards de dollars Stargate Project

Google & # 039; s Gencast: Prévision météorologique avec Mini démo Gencast Google & # 039; s Gencast: Prévision météorologique avec Mini démo Gencast Mar 16, 2025 pm 01:46 PM

Google & # 039; s Gencast: Prévision météorologique avec Mini démo Gencast

5 invites Grok 3 qui peuvent faciliter votre travail 5 invites Grok 3 qui peuvent faciliter votre travail Mar 04, 2025 am 10:54 AM

5 invites Grok 3 qui peuvent faciliter votre travail

See all articles