Overview
Ces dernières années, les modèles de base multimodaux (MFM), tels que CLIP, ImageBind, DALL・E 3. GPT-4V, Gemini et Sora sont devenus l'un des domaines les plus accrocheurs et les plus en développement dans le domaine de l'intelligence artificielle. Dans le même temps, la communauté open source MFM a également émergé avec des projets open source représentatifs tels que LLaVA, LAMM, MiniGPT-4, Stable Diffusion et OpenSora.
Différent des modèles traditionnels de vision par ordinateur et de traitement du langage naturel, ce type de MFM explore activement les solutions générales aux problèmes. En introduisant MFM, l'intelligence incorporée (EAI) peut mieux gérer diverses tâches complexes dans les simulateurs et les environnements du monde réel. Cependant, il reste encore de nombreux problèmes qui n'ont pas encore été explorés et résolus à l'intersection de MFM et d'EAI, notamment la prise de décision à long terme de l'agent, la planification des mouvements de l'agent, les capacités de généralisation de nouveaux environnements, etc.
Cet atelier sera consacré à l'exploration de plusieurs questions clés, notamment :
Appel à communications de l'atelier
Cet atelier se concentre sur le modèle de base multimodal (MFM), l'intelligence incorporée (EAI) et l'intersection des deux études. Les sujets de cet appel à communications incluent, sans s'y limiter :
Règles de soumission
Cette soumission sera soumise à un examen en double aveugle via la plateforme OpenReview. La longueur du texte principal de la soumission est de 4 pages, et il n'y a aucune limite quant à la longueur des références et des documents supplémentaires.
Nœuds temporels
Tous les nœuds temporels sont [AoE] (N'importe où sur Terre).
MFM-EAI ChallengeTrois pistes (peuvent participer en même temps)
EgoPlan Challenge est conçu pour évaluer de grands modèles multimodaux dans des scénarios réels, ciblage La capacité de planifier des tâches du monde réel impliquées dans les activités humaines quotidiennes. Le modèle doit sélectionner des actions raisonnables pour accomplir la tâche en fonction de la description de l'objectif de la tâche, de la vidéo en perspective à la première personne et de l'observation de l'environnement actuel.
Paramètres du prix :
Le Composable Generalization Challenge vise à évaluer les capacités de tâches et les capacités de généralisation du système combiné planification-exécution dans des scénarios ouverts. Le modèle effectue une décomposition de tâches sur la base d'une description de tâche linguistique et d'une entrée visuelle multimodale, et le contrôleur exécute les sous-tâches décomposées.
Le World Model Challenge vise à évaluer les performances d'application des simulateurs mondiaux dans des scénarios d'intelligence incorporée. Le modèle génère des vidéos conformes aux instructions de tâche sur la base de descriptions de tâches incorporées et d'observations de scène en temps réel, et évalue la qualité de la génération vidéo et la capacité à guider l'agent pour accomplir des tâches. Plus de détails seront annoncés en juillet
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!