人間の感情行動分析は、ヒューマン コンピューター インタラクション (HCI) において大きな注目を集めています。この記事は、CVPR 2022 Affective Behavior Analysis in-the-wild (ABAW) に提出した論文を紹介することを目的としています。感情に関する知識を最大限に活用するために、Aff-Wild2 データセットのビデオ クリップから抽出された話し言葉、音声韻律、表情などのマルチモーダル機能を採用しています。これらの特徴に基づいて、アクションユニット検出と表情認識のためのトランスフォーマーベースのマルチモーダルフレームワークを提案します。このフレームワークは、人間の感情的行動のより包括的な理解に貢献し、人間とコンピューターのインタラクションの分野に新しい研究の方向性を提供します。
現在のフレーム画像の場合、まずそれをエンコードして静的な視覚的特徴を抽出します。同時に、スライディング ウィンドウを使用して隣接するフレームをトリミングし、画像、音声、テキスト シーケンスから 3 つのマルチモーダル特徴を抽出します。次に、静的なビジュアル機能と動的なマルチモーダル機能を融合するトランスフォーマー ベースの融合モジュールを紹介します。この融合モジュールのクロスアテンション モジュールは、下流の検出タスクに役立つ重要な部分に出力統合機能を集中させるのに役立ちます。モデルのパフォーマンスをさらに向上させるために、いくつかのデータ バランシング手法、データ拡張手法、および後処理手法を採用しました。 ABAW3コンペティションの公式テストでは、EXPRトラックとAUトラックの両方で当社モデルが1位を獲得しました。我々は、Aff-Wild2データセットに対する広範な定量的評価とアブレーション研究を通じて、提案した方法の有効性を実証します。
https://arxiv.org/abs/2203.12367
以上が表情分析: マルチモーダル情報と Transformer の統合の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。