Nouveau travail de l'équipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité d'apprendre avec peu d'échantillons-IA-php.cn

Maison

Nouveau travail de l'équipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité d'apprendre avec peu d'échantillons

王林

Jul 16, 2024 pm 08:38 PM

工程

Vous pouvez utiliser votre cerveau, jamais vos mains.

Dans le futur, vous pourrez peut-être demander à un robot de vous aider dans les tâches ménagères rien qu'en y pensant. Le système NOIR récemment proposé par l'équipe de Wu Jiajun et Li Feifei de l'Université de Stanford permet aux utilisateurs de contrôler des robots pour accomplir des tâches quotidiennes grâce à des appareils d'électroencéphalographie non invasifs.

NOIR peut décoder vos signaux EEG dans une bibliothèque de compétences robotiques. Il peut désormais accomplir des tâches telles que cuisiner des sukiyaki, repasser des vêtements, râper du fromage, jouer au tic-tac-toe et même caresser un chien robot. Ce système modulaire possède de puissantes capacités d’apprentissage et peut gérer des tâches complexes et variées de la vie quotidienne.

Nouveau travail de léquipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité dapprendre avec peu déchantillons

L'interface cerveau-robot (BRI) est un chef-d'œuvre de l'art humain, de la science et de l'ingénierie. Nous l'avons vu dans d'innombrables œuvres de science-fiction et arts créatifs, tels que "The Matrix" et "Avatar", mais réaliser réellement la BRI n'est pas facile et nécessite des recherches scientifiques révolutionnaires pour créer un dispositif capable de se coordonner parfaitement avec le système robotique fonctionnel des humains. .

Un élément clé d'un tel système est la capacité des machines à communiquer avec les humains. Dans le processus de collaboration homme-machine et d’apprentissage des robots, les moyens par lesquels les humains communiquent leurs intentions incluent les actions, les pressions sur les boutons, le regard, les expressions faciales, le langage, etc. Communiquer directement avec des robots via des signaux neuronaux est la perspective la plus excitante mais aussi la plus stimulante.

Récemment, une équipe conjointe multidisciplinaire dirigée par Wu Jiajun et Li Feifei de l'Université de Stanford a proposé un système BRI intelligent universel NOIR (Neural Signal Operating Intelligent Robots/Neural Signal Operating Intelligent Robots).

Adresse papier : https://openreview.net/pdf?id=eyykI3UIHa

Site Web du projet : https://noir-corl.github.io/

Le système est basé sur l'électroencéphalographie non invasive ( technologie EEG). Selon les rapports, le principe principal basé sur ce système est l'autonomie hiérarchique partagée, c'est-à-dire que les humains définissent des objectifs de haut niveau et que les robots atteignent leurs objectifs en exécutant des instructions de mouvement de bas niveau. Le système intègre de nouvelles avancées en matière de neurosciences, de robotique et d’apprentissage automatique pour apporter des améliorations par rapport aux méthodes précédentes. L’équipe résume les contributions apportées.

Tout d’abord, NOIR est polyvalent, peut être utilisé pour diverses tâches et est facile à utiliser par différentes communautés. Les recherches montrent que NOIR peut effectuer jusqu'à 20 activités quotidiennes ; en comparaison, les systèmes BRI précédents étaient souvent conçus pour une ou quelques tâches, ou étaient simplement des systèmes de simulation. De plus, le système NOIR peut être utilisé par la population générale avec une formation minimale.

Deuxièmement, le I dans NOIR signifie que le système robotique est intelligent et possède des capacités d'adaptation. Le robot est doté d’un répertoire diversifié de compétences qui lui permettent d’effectuer des actions de bas niveau sans supervision humaine intensive. En utilisant des primitives de compétences paramétrées telles que Pick (obj-A) ou MoveTo (x,y), les robots peuvent naturellement acquérir, interpréter et exécuter des objectifs comportementaux humains.

De plus, le système NOIR a également la capacité d'apprendre ce que les humains veulent réaliser au cours du processus de collaboration. La recherche montre qu’en tirant parti des progrès récents des modèles sous-jacents, le système peut s’adapter même à des données très limitées. Cela peut améliorer considérablement l’efficacité du système. Les principales contributions techniques de

NOIR incluent un flux de travail modulaire pour décoder les signaux neuronaux afin de comprendre l’intention humaine. Vous savez, décoder les objectifs humains à partir de signaux neuronaux est extrêmement difficile. Pour ce faire, l'approche de l'équipe consiste à décomposer l'intention humaine en trois composantes majeures : l'objet à manipuler (Quoi), comment interagir avec l'objet (Comment) et où interagir (Où). Leurs recherches montrent que ces signaux peuvent être décodés à partir de différents types de données neuronales. Ces signaux décomposés peuvent naturellement correspondre à des compétences paramétrées du robot et peuvent être efficacement communiqués au robot.

Trois sujets humains ont utilisé avec succès le système NOIR dans 20 activités à domicile impliquant des opérations sur ordinateur ou mobile (y compris faire des sukiyaki, repasser des vêtements, jouer au tic-tac-toe, caresser un chien robot, etc.), c'est-à-dire accomplir ces tâches en leurs signaux cérébraux !

Les expériences montrent qu'en utilisant des humains comme enseignants pour un apprentissage robotique en quelques étapes, l'efficacité du système NOIR peut être considérablement améliorée. Cette méthode consistant à utiliser les signaux du cerveau humain pour collaborer à la construction de systèmes robotiques intelligents présente un grand potentiel pour développer des technologies d'assistance vitales pour les personnes, en particulier celles handicapées, afin d'améliorer leur qualité de vie.

Système NOIR

Les défis que cette recherche cherche à résoudre comprennent : 1. Comment construire un système BRI universel adapté à diverses tâches ? 2. Comment décoder les signaux de communication pertinents du cerveau humain ? 3. Comment améliorer l’intelligence et l’adaptabilité des robots pour parvenir à une collaboration plus efficace ? La figure 2 donne un aperçu du système.

Dans ce système, les humains, en tant qu'agents de planification, perçoivent, planifient et communiquent des objectifs comportementaux aux robots tandis que les robots utilisent des compétences primitives prédéfinies pour atteindre ces objectifs ;

Pour atteindre l’objectif global de créer un système BRI universel, ces deux conceptions doivent être intégrées de manière collaborative. À cette fin, l’équipe a proposé un nouveau flux de travail de décodage des signaux cérébraux et a équipé le robot d’un ensemble de bibliothèques de compétences originales paramétrées. Enfin, l’équipe a utilisé une technologie d’apprentissage par imitation sur quelques échantillons pour donner au robot des capacités d’apprentissage plus efficaces.

Cerveau : workflow de décodage modulaire

Comme le montre la figure 3, l'intention humaine sera décomposée en trois composantes : l'objet à manipuler (Quoi), la manière d'interagir avec l'objet (Comment) et l'interaction Où .

Décoder les intentions spécifiques des utilisateurs à partir des signaux EEG n'est pas facile, mais cela peut être accompli grâce aux potentiels évoqués visuels à l'état stable (SSVEP) et à l'imagerie motrice. En bref, le processus comprend :

Sélectionner un objet avec un potentiel évoqué visuel en état d'équilibre (SSVEP)
Sélectionner les compétences et les paramètres via l'imagerie motrice (MI)
Sélectionner via le resserrement musculaire pour confirmer ou interrompre

Robot : Compétences primitives paramétrées

Les compétences primitives paramétrées peuvent être combinées et réutilisées pour différentes tâches afin de réaliser des opérations complexes et diverses. De plus, ces compétences sont très intuitives pour les humains. Ni les humains ni les agents n'ont besoin de comprendre les mécanismes de contrôle de ces compétences, de sorte que les gens peuvent mettre en œuvre ces compétences par n'importe quelle méthode, à condition qu'elles soient robustes et adaptables à diverses tâches.

L'équipe a utilisé deux robots dans l'expérience : l'un était un bras robotique Franka Emika Panda pour les tâches d'exploitation de bureau, et l'autre était un robot PAL Tiago pour les tâches d'exploitation mobiles. Le tableau suivant donne les compétences primitives de ces deux robots.

Utiliser l'apprentissage robot pour un BRI efficace

Le flux de travail de décodage modulaire et la bibliothèque de compétences primitives décrits ci-dessus jettent les bases de NOIR. Cependant, l’efficacité de tels systèmes peut encore être améliorée. Le robot devrait être capable d'apprendre les éléments, les compétences et les préférences de sélection des paramètres de l'utilisateur au cours du processus de collaboration, afin de pouvoir à l'avenir prédire les objectifs que l'utilisateur souhaite atteindre, obtenir une meilleure automatisation et rendre le décodage plus simple et plus facile. Étant donné que la position, la pose, la disposition et l'instance des éléments peuvent être différentes à chaque exécution, des capacités d'apprentissage et de généralisation sont nécessaires. De plus, les algorithmes d’apprentissage doivent être très efficaces en matière d’échantillonnage, car la collecte de données humaines est coûteuse.

L'équipe a adopté deux méthodes pour cela : la sélection d'éléments et de compétences sur quelques échantillons basée sur la récupération, et l'apprentissage des paramètres de compétence sur un échantillon unique.

Sélection d'objets et de compétences basée sur la récupération de quelques échantillons. Cette méthode peut apprendre des représentations implicites des états observés. Étant donné un nouvel état observé, il trouve l’état le plus similaire et l’action correspondante dans l’espace caché. La figure 4 donne un aperçu de l’approche.

Pendant l'exécution de la mission, des points de données constitués d'images et de paires « objet-compétence » sélectionnées par l'homme sont enregistrés. Ces images sont d'abord codées par un modèle R3M pré-entraîné pour extraire des fonctionnalités utiles aux tâches de manipulation du robot, puis transmises à travers un certain nombre de couches entièrement connectées pouvant être entraînées. Ces couches sont formées à l'aide d'un apprentissage contrastif avec une perte de triplet, ce qui encourage les images portant la même étiquette « élément-compétence » à se rapprocher les unes des autres dans l'espace caché. Les intégrations d'images apprises et les étiquettes « élément-compétence » sont stockées en mémoire.

Pendant les tests, le modèle récupère le point de données le plus proche dans l'espace caché, puis suggère à l'humain la paire objet-compétence associée à ce point de données.

Apprentissage des paramètres de compétence à échantillon unique. La sélection des paramètres nécessite une implication humaine importante, car le processus nécessite un fonctionnement précis du curseur grâce à l'imagerie motrice (IM). Pour réduire l'effort humain, l'équipe a proposé un algorithme d'apprentissage qui prédit les paramètres en fonction d'une paire objet-compétence utilisée comme point de départ pour le contrôle du curseur. En supposant que l’utilisateur ait réussi à localiser le point clé précis de la prise d’une anse de tasse, devra-t-il à nouveau spécifier ce paramètre à l’avenir ? Récemment, les modèles de base tels que DINOv2 ont fait beaucoup de progrès et les points clés sémantiques correspondants peuvent être trouvés, éliminant ainsi le besoin de spécifier à nouveau les paramètres.

Par rapport aux travaux précédents, le nouvel algorithme proposé ici est à échantillon unique et prédit des points 2D spécifiques plutôt que des fragments sémantiques. Comme le montre la figure 4, étant donné une image d'entraînement (360 × 240) et une sélection de paramètres (x, y), le modèle prédit des points sémantiquement correspondants dans différentes images de test. Plus précisément, l’équipe a utilisé le modèle DINOv2 pré-entraîné pour obtenir des fonctionnalités sémantiques.

Expériences et résultats

missions. Les tâches sélectionnées pour l'expérimentation proviennent des référentiels COMPORTEMENT et Activités de la vie quotidienne, qui peuvent refléter dans une certaine mesure les besoins quotidiens humains. La figure 1 montre les tâches expérimentales, qui comprennent 16 tâches de bureau et 4 tâches d'exploitation mobile.

Des exemples de processus expérimentaux pour préparer des sandwichs et prendre soin des patients atteints du COVID-19 sont présentés ci-dessous.

Procédé expérimental. Pendant l’expérience, l’utilisateur est resté dans une pièce isolée, est resté immobile, a regardé le robot sur l’écran et s’est appuyé uniquement sur les signaux cérébraux pour communiquer avec le robot.

Performances du système. Le tableau 1 résume les performances du système selon deux mesures : le nombre de tentatives avant le succès et le temps nécessaire pour terminer la tâche en cas de succès.

Malgré la longue durée et la difficulté de ces tâches, NOIR a obtenu des résultats très encourageants : en moyenne, il n'a fallu que 1,83 tentatives pour terminer les tâches.

Précision du décodage. La précision avec laquelle les signaux cérébraux sont décodés est la clé du succès du système NOIR. Le tableau 2 résume la précision du décodage à différentes étapes. On peut voir que le CCA (analyse de corrélation canonique) basé sur SSVEP peut atteindre une précision élevée de 81,2 %, ce qui signifie que la sélection des éléments est généralement précise.

Résultats de la sélection des objets et des compétences. Alors, l’algorithme d’apprentissage robot récemment proposé peut-il améliorer l’efficacité de NOIR ? Les chercheurs ont d’abord évalué l’apprentissage par la sélection d’objets et de compétences. Pour ce faire, ils ont collecté un ensemble de données hors ligne pour la tâche MakePasta, avec 15 échantillons d'entraînement pour chaque paire élément-compétence. Étant donné une image, lorsque l’objet et la compétence corrects sont prédits simultanément, la prédiction est considérée comme correcte. Les résultats sont présentés dans le tableau 3.

Un modèle simple de classification d'images utilisant ResNet peut atteindre une précision moyenne de 0,31, tandis que la nouvelle méthode basée sur le réseau fédérateur ResNet pré-entraîné peut atteindre une précision significativement plus élevée de 0,73, ce qui met en évidence l'importance de l'apprentissage et de la récupération contrastés. d'apprendre.

Résultats de l'apprentissage des paramètres sur un seul échantillon. Les chercheurs ont comparé le nouvel algorithme à plusieurs références basées sur des ensembles de données pré-collectées. Le tableau 4 donne les valeurs MSE des résultats prédits.

Sie demonstrierten auch die Wirksamkeit des Parameter-Lernalgorithmus bei der tatsächlichen Aufgabenausführung für die SetTable-Aufgabe. Abbildung 5 zeigt den eingesparten menschlichen Aufwand bei der Steuerung der Cursorbewegung.

Nouveau travail de léquipe de Li Feifei : des robots contrôlés par le cerveau font le ménage, donnant aux interfaces cerveau-ordinateur la capacité dapprendre avec peu déchantillons

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1670

Tutoriel CakePHP

1428

Tutoriel Laravel

1329

Tutoriel PHP

1276

Tutoriel C#

1256

Afficher plus

Related knowledge

L'auteur de ControlNet a encore un succès ! L'ensemble du processus de génération d'une peinture à partir d'une image, gagnant 1,4k étoiles en deux jours Jul 17, 2024 am 01:56 AM

Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

En tête de liste des ingénieurs logiciels d'IA open source, la solution sans agent de l'UIUC résout facilement les problèmes de programmation réels du banc SWE. Jul 17, 2024 pm 10:02 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

Du RLHF au DPO en passant par TDPO, les algorithmes d'alignement des grands modèles sont déjà « au niveau des jetons » Jun 24, 2024 pm 03:04 PM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

Les articles arXiv peuvent être publiés sous forme de 'barrage', la plateforme de discussion alphaXiv de Stanford est en ligne, LeCun l'aime Aug 01, 2024 pm 05:18 PM

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Travail posthume de l'équipe OpenAI Super Alignment : deux grands modèles jouent à un jeu et le résultat devient plus compréhensible Jul 19, 2024 am 01:29 AM

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Une avancée significative dans l'hypothèse de Riemann ! Tao Zhexuan recommande fortement les nouveaux articles du MIT et d'Oxford, et le lauréat de la médaille Fields, âgé de 37 ans, a participé Aug 05, 2024 pm 03:32 PM

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

LLM n'est vraiment pas bon pour la prédiction de séries chronologiques. Il n'utilise même pas sa capacité de raisonnement. Jul 15, 2024 pm 03:59 PM

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

Le premier MLLM basé sur Mamba est là ! Les poids des modèles, le code de formation, etc. sont tous open source Jul 17, 2024 am 02:46 AM

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui

See all articles