


178 pages, 128 cas, évaluation complète du GPT-4V dans le domaine médical, encore loin de l'application clinique et de la prise de décision pratique
L'Université Jiao Tong de Shanghai et le Shanghai AI Lab ont publié une étude de cas médical de 178 pages sur le GPT-4V, révélant pour la première fois de manière exhaustive les performances visuelles du GPT-4V dans le domaine médical. Poussé par des modèles de base à grande échelle, le développement de l'intelligence artificielle a fait de grands progrès récemment, en particulier le GPT-4 d'OpenAI. Ses puissantes capacités de questions-réponses et de connaissances ont illuminé le moment Eureka dans le domaine de l'IA, provoquant un large public. préoccupation. GPT-4V (ision) est le dernier modèle de base multimodal d'OpenAI. Par rapport à GPT-4, il ajoute des capacités de saisie d’images et de voix. Cette étude vise à évaluer les performances du GPT-4V (ision) dans le domaine du diagnostic médical multimodal à travers l'analyse de cas. Au total, 128 (92 cas d'évaluation radiologique, 20 cas d'évaluation pathologique et 16 cas de positionnement) ont été affichés et analysés. . Case) Exemple de questions et réponses GPT-4V avec un total de 277 images (Remarque : cet article n'impliquera pas l'affichage du cas, veuillez vous référer au document original pour l'affichage et l'analyse du cas spécifique).
Lien ArXiv : https://arxiv.org/abs/2310.09909
Adresse de téléchargement du cloud Baidu : https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2
Adresse de téléchargement Google Drive : https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing
Capacités d'évaluation :
- Identification des modalités d'image et de l'emplacement d'imagerie : identifier les rayons X, la tomodensitométrie, l'IRM Imagerie par résonance, images échographiques et pathologiques, et localisation des emplacements d'imagerie.
- Localisation des structures anatomiques : identifiez des structures anatomiques spécifiques dans les images.
- Détection et localisation des anomalies : Détectez et localisez des anomalies telles que des tumeurs, des fractures ou des infections.
- Diagnostic complet multi-images : combinez des informations provenant de différentes modalités d'imagerie ou vues pour le diagnostic.
- Rédaction de rapports médicaux : décrire les conditions anormales et les résultats normaux associés.
- Intégration des antécédents du patient : tenez compte des informations de base et des antécédents médicaux du patient dans l'interprétation des images.
- Cohérence et mémoire dans plusieurs cycles d'interaction : maintenir la continuité dans la cognition des données.
Système d'évaluation :
- Système nerveux central
- Tête et cou
- Coeur
- Poitrine
- Sang
- Foie et vésicule biliaire
- Anorectale
- Urologie
- Gynécologie
- Obstétrique
- Département du sein
- Musculo-squelettique Département
- Département de la colonne vertébrale
- Département vasculaire
- Département d'oncologie
- Département de traumatologie
- Pédiatrie
Modalité d'image :
- Rayons X
- Tomodensitométrie (CT)
- Imagerie par résonance magnétique (IRM)
- Positif Tomographie par émission électronique (TEP)
- Angiographie par soustraction numérique (DSA)
- Mammographie
- Échographie
- Pathologie
Sélection de cas de test
Les questions et réponses sur la radiologie pour l'article original proviennent de Radiopaedia, les images sont téléchargées directement à partir de la page Web. , les cas de positionnement proviennent de plusieurs ensembles de données de segmentation médicale publique et les images de pathologie proviennent de PathologyOutlines. Lors de la sélection des cas, les auteurs ont pris en compte de manière exhaustive les aspects suivants :
- Date de publication : étant donné que les données d'entraînement de GPT-4V sont très probablement extrêmement volumineuses, afin d'éviter que les cas de test sélectionnés n'apparaissent dans l'ensemble d'entraînement, le les auteurs n'ont sélectionné que les derniers cas publiés en 2023.
- Credibilité de l'annotation : Le diagnostic médical lui-même est controversé et ambigu. Sur la base du taux de complétion des cas fourni par Radiopaedia, l'auteur tente de sélectionner les cas avec un taux de complétion supérieur à 90 % pour garantir la crédibilité de l'annotation ou du diagnostic.
- Diversité des modalités d'image : lors de la sélection des cas, l'auteur a fait de son mieux pour montrer la réponse du GPT-4V à plusieurs modalités d'imagerie.
Lors du traitement de l'image, l'auteur a également effectué la normalisation suivante pour garantir la qualité de l'image d'entrée :
- Sélection d'images multiples : étant donné que la limite maximale d'entrée d'images prise en charge par GPT-4V est de 4, mais que certains cas auront plus de 4 images associées, tout d'abord, l'auteur essaiera d'éviter cette situation lors de la sélection des cas, et d'autre part , si cela est inévitable. Lorsqu'il est confronté à un tel cas, l'auteur sélectionnera les images les plus pertinentes sur la base des annotations de cas fournies par Radiopaedia.
- Sélection de section : Une grande quantité de données d'images radiologiques est sous forme de 3D (images bidimensionnelles multi-images continues) et ne peut pas être directement saisie dans GPT-4V. Une section la plus représentative doit être sélectionnée pour remplacer la 3D complète. image et être entrée dans GPT-4V. Selon les spécifications de téléchargement de cas de Radiopaedia, les radiologues sont invités à sélectionner la section la plus pertinente lors du téléchargement d'images 3D. Les auteurs en ont profité et ont choisi les coupes axiales recommandées par Radiopaedia pour la saisie au lieu des données 3D.
- Standardisation de l'image : conception standardisée des images médicales, sélection de la largeur de la fenêtre et du niveau de la fenêtre. Différentes fenêtres mettront en évidence différents tissus. Les auteurs ont utilisé le cas Radiopaedio pour télécharger la largeur de la fenêtre et le niveau de la fenêtre sélectionnés par le radiologue pour saisir l'image. Pour l'ensemble de données segmentées, l'article d'origine utilise une fenêtre de [-300 300] et effectue une normalisation au niveau du cas de 0-1.
Les tests de l'article original ont tous utilisé la version Web de GPT-4V Lors de la première série de questions-réponses, les utilisateurs saisiront des images, puis lanceront plusieurs séries de questions-réponses. Afin d'éviter toute influence mutuelle du contexte, pour chaque nouveau cas, une nouvelle fenêtre de questions-réponses sera créée pour les questions-réponses.
Dans l'évaluation pathologique, toutes les images subiront deux tours de dialogue.
- Le premier tour demande si un rapport peut être généré uniquement sur la base des images d'entrée.
- Le but de ce cycle est d'évaluer si GPT-4V peut identifier la modalité d'image et l'origine des tissus sans fournir d'indices médicaux pertinents.
- Au deuxième tour, l'utilisateur fournira la bonne source de tissu et demandera à GPT-4V s'il peut établir un diagnostic basé sur l'image pathologique et ses informations sur la source de tissu, en espérant que GPT-4V pourra modifier le rapport et fournir une réponse claire. résultat du diagnostic.
Affichage de cas d'image pathologique
Évaluation de l'emplacement
- Reconnaissance d'objet : Déterminez s'il y a une cible dans l'image.
- Génération de boîte englobante : Générez les coordonnées de la boîte englobante pour la cible, où le coin supérieur gauche est (0, 0) et le coin inférieur droit est (w, h).
- Calcul de l'IOU : Calculez le rapport d'intersection sur union (IOU) entre le cadre de délimitation prédit et le véritable cadre de délimitation.
- Performances plafonnées : Sélectionnez la zone de délimitation prévue avec le score IOU le plus élevé.
-
Performance moyenne : Calculez le score IOU du cadre de délimitation moyen.
Limites de l'évaluation
Bien sûr, l'auteur original a également mentionné certaines lacunes et limites de l'évaluation : - Évaluation uniquement qualitative plutôt que quantitative
Étant donné que GPT-4V ne fournit qu'une interface Web en ligne, les cas de test ne peuvent être téléchargés que manuellement, ce qui entraîne Le rapport d'évaluation initial était limité dans son évolutivité et ne pouvait donc fournir qu'une évaluation qualitative. - Biais d'échantillonnage
Les échantillons sélectionnés proviennent tous de sites Web en ligne et peuvent ne pas refléter la distribution des données dans les cliniques ambulatoires quotidiennes. En particulier, la plupart des cas évalués sont des valeurs aberrantes, ce qui peut introduire un biais potentiel dans l'évaluation. - Les annotations ou les réponses de référence sont incomplètes
Les descriptions de référence obtenues sur les sites Web Radiopaedia ou PathologyOutlines n'ont pour la plupart aucune structure ni aucun format standardisé de rapport de radiologie/pathologie. En particulier, la plupart de ces rapports se concentrent principalement sur la description des anomalies plutôt que sur la description complète des cas et ne servent pas de comparaison directe avec des réponses parfaites. - Entrée de tranche 2D uniquement
Dans les contextes cliniques réels, les images radiologiques, y compris les tomodensitométries et les IRM, sont généralement au format DICOM 3D. Cependant, GPT-4V ne peut prendre en charge que la saisie de quatre images 2D au maximum, de sorte que le texte original ne peut saisir que des tranches de clé 2D ou de petits fragments (pour la pathologie) lors de l'évaluation.
En conclusion, même si l'évaluation n'est peut-être pas exhaustive, les auteurs originaux estiment que cette analyse peut encore fournir des informations précieuses aux chercheurs et aux professionnels de la santé. Elle révèle les capacités actuelles des modèles de base multimodaux et pourrait inspirer de futurs travaux sur la construction de modèles de base. de médecine.
Observations importantes
Le rapport d'évaluation original résume plusieurs caractéristiques de performance observées du GPT-4V sur la base des cas d'évaluation :
Section des cas de radiologie
Les auteurs ont fait les observations suivantes sur la base de 92 cas d'évaluation de radiologie et de 20 cas de positionnement : - GPT-4V peut identifier la modalité et la position d'imagerie des images médicales
GPT4-V a montré de bonnes capacités de traitement pour des tâches telles que la reconnaissance modale, la détermination des parties d'imagerie et la détermination des catégories de plan d'image pour la plupart des contenus d'images. Par exemple, les auteurs ont souligné que le GPT-4V peut facilement distinguer diverses modalités telles que l'IRM, la tomodensitométrie et la . - GPT-4V est presque impossible de poser des diagnostics précis
Les auteurs ont constaté que : d'une part, OpenAI semble avoir mis en place un mécanisme de sécurité qui limite strictement le GPT-4V de faire des diagnostics directs, d'autre part ; cas de diagnostic très évidents, le GPT-4V a de faibles capacités analytiques et se limite à lister une série de maladies possibles, mais ne peut pas donner un diagnostic plus précis. - GPT-4V peut générer des rapports structurés, mais la plupart du contenu est incorrect
GPT-4V peut générer des rapports plus standards dans la plupart des cas, mais les auteurs estiment qu'il est plus intégré que les rapports manuscrits avec un contenu plus flexible ont tendance à être décrits image par image et manquent de capacités complètes lors du ciblage d’images multimodales ou multi-images. Par conséquent, la plupart du contenu a peu de valeur de référence et manque de précision. - GPT-4V peut reconnaître les marques et les annotations de texte dans les images médicales, mais il ne peut pas comprendre la signification de leur apparition dans l'image.
GPT-4V affiche une forte reconnaissance de texte, de reconnaissance de marques et d'autres capacités, et essaiera d'utiliser ces marques. pour analyse. Cependant, les auteurs estiment que ses limites sont les suivantes : premièrement, GPT-4V abuse toujours du texte et des balises et l'image elle-même devient un objet de référence secondaire ; deuxièmement, elle est moins robuste et interprète souvent mal les informations médicales contenues dans l'image. - GPT-4V peut identifier les dispositifs médicaux implantés et leurs positions dans les images
Dans la plupart des cas, GPT4-V peut identifier correctement les dispositifs médicaux implantés dans le corps humain et localiser leurs positions de manière relativement précise. Et les auteurs ont constaté que même dans certains des cas les plus difficiles, des erreurs de diagnostic pouvaient survenir mais le dispositif médical était jugé correctement identifié. - GPT-4V rencontrera des obstacles d'analyse lorsqu'il sera confronté à plusieurs entrées d'images
Les auteurs ont découvert que face à des images sous différentes perspectives dans la même modalité, GPT-4V affichera de meilleures performances que la saisie d'une seule image, avec de meilleures capacités d'analyse, mais néanmoins. a tendance à effectuer une analyse séparée sur chaque vue ; face à une entrée mixte d'images provenant de différentes modalités, il est plus difficile pour GPT-4V de dériver une analyse raisonnable qui intègre des informations provenant de différentes modalités. - Les prédictions du GPT-4V sont facilement guidées par les antécédents pathologiques du patient
Les auteurs ont constaté que le fait que les antécédents pathologiques du patient soient fournis ou non a un plus grand impact sur les réponses du GPT-4V. Lorsqu'un historique de la maladie est fourni, GPT-4V l'utilise souvent comme point clé pour tirer des conclusions sur des anomalies potentielles dans l'image ; lorsqu'un historique de la maladie n'est pas fourni, GPT-4V est plus susceptible de traiter l'image comme un point clé. Les cas normaux sont analysés. - GPT-4V ne peut pas localiser les structures anatomiques et les anomalies dans les images médicales
Les auteurs pensent que le mauvais effet de positionnement du GPT-4V se manifeste principalement par : Premièrement, le GPT-4V obtient toujours des images loin de la limite réelle pendant le processus de positionnement. boîte de prédiction ; deuxièmement, il montre un caractère aléatoire significatif dans plusieurs séries de prédictions répétées pour la même image ; troisièmement, GPT-4V montre un biais évident, par exemple : dans les images IRM cérébrales, le cervelet doit être situé en bas. - GPT-4V peut modifier ses réponses existantes en fonction de plusieurs séries d'interactions utilisateur.
GPT-4V peut modifier sa réponse pour qu'elle soit correcte au cours d'une série d'interactions.Par exemple, dans l’exemple présenté dans l’article, les auteurs ont saisi des images IRM de l’endométriose. GPT-4V a initialement classé à tort une IRM pelvienne comme une IRM du genou, ce qui a entraîné un résultat incorrect. Mais l’utilisateur l’a corrigé grâce à plusieurs cycles d’interaction avec GPT-4V et a finalement établi un diagnostic précis. - GPT-4V a un sérieux problème d'hallucinations, notamment la tendance à décrire les patients comme normaux même si les signaux anormaux sont extrêmement évidents.
GPT-4V génère toujours des rapports qui semblent très complets et détaillés dans leur structure, mais le contenu est souvent incorrect, il considérera toujours le patient comme normal même si les zones anormales de l'image sont évidentes. - GPT-4V n'est pas assez stable pour répondre à des questions médicales
GPT-4V présente une énorme différence de performances entre les images courantes et les images rares, et montre également des différences de performances évidentes dans différents systèmes corporels. De plus, l'analyse de la même image médicale peut produire des résultats incohérents en raison de l'évolution des invites. Par exemple, GPT-4V juge initialement une image donnée comme anormale sous l'invite « Quel est le diagnostic pour ce scanner cérébral ? » rapport considérant la même image comme normale. Cette incohérence met en évidence que les performances du GPT-4V dans le diagnostic clinique peuvent être instables et peu fiables. - GPT-4V a des restrictions de sécurité strictes dans le domaine médical
Les auteurs ont découvert que GPT-4V a établi des mesures de protection de sécurité pour éviter toute utilisation abusive lors des questions-réponses dans le domaine médical afin de garantir que les utilisateurs peuvent l'utiliser en toute sécurité. Par exemple, lorsqu'il est demandé à GPT-4V d'établir un diagnostic « Veuillez fournir le diagnostic de cette radiographie pulmonaire. », il peut refuser de donner une réponse ou souligner « Je ne remplace pas l'avis d'un médecin professionnel ». Dans la plupart des cas, GPT-4V préférera utiliser des expressions contenant « semble être » ou « pourrait être » pour exprimer une incertitude.
Section de cas pathologiques
De plus, afin d'explorer les capacités du GPT-4V dans la génération de rapports et le diagnostic médical d'images pathologiques, les auteurs ont effectué des tests au niveau des blocs d'images sur 20 images pathologiques de tumeurs malignes provenant de différents tissus et ont conclu comme suit Conclusion : - GPT-4V est capable d'une reconnaissance précise des modalités
Dans tous les cas de test, GPT-4V peut identifier correctement la modalité de toutes les images pathologiques (images histopathologiques colorées H&E). - GPT-4V est capable de générer des rapports structurés
À partir d'une image pathologique sans aucune indication médicale, GPT-4V peut générer un rapport structuré et détaillé décrivant les caractéristiques de l'image. Dans 7 des 20 cas, ils ont pu énumérer clairement leurs observations, voire correctement, en utilisant des termes tels que « structure tissulaire », « caractéristiques cellulaires », « stroma », « structure glandulaire », « noyau », etc.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Il s'agit également d'une vidéo Tusheng, mais PaintsUndo a emprunté une voie différente. L'auteur de ControlNet, LvminZhang, a recommencé à vivre ! Cette fois, je vise le domaine de la peinture. Le nouveau projet PaintsUndo a reçu 1,4kstar (toujours en hausse folle) peu de temps après son lancement. Adresse du projet : https://github.com/lllyasviel/Paints-UNDO Grâce à ce projet, l'utilisateur saisit une image statique et PaintsUndo peut automatiquement vous aider à générer une vidéo de l'ensemble du processus de peinture, du brouillon de ligne au suivi du produit fini. . Pendant le processus de dessin, les changements de lignes sont étonnants. Le résultat vidéo final est très similaire à l’image originale : jetons un coup d’œil à un dessin complet.

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Dans le processus de développement de l'intelligence artificielle, le contrôle et le guidage des grands modèles de langage (LLM) ont toujours été l'un des principaux défis, visant à garantir que ces modèles sont à la fois puissant et sûr au service de la société humaine. Les premiers efforts se sont concentrés sur les méthodes d’apprentissage par renforcement par feedback humain (RL

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com Les auteurs de cet article font tous partie de l'équipe de l'enseignant Zhang Lingming de l'Université de l'Illinois à Urbana-Champaign (UIUC), notamment : Steven Code repair ; doctorant en quatrième année, chercheur

acclamations! Qu’est-ce que ça fait lorsqu’une discussion sur papier se résume à des mots ? Récemment, des étudiants de l'Université de Stanford ont créé alphaXiv, un forum de discussion ouvert pour les articles arXiv qui permet de publier des questions et des commentaires directement sur n'importe quel article arXiv. Lien du site Web : https://alphaxiv.org/ En fait, il n'est pas nécessaire de visiter spécifiquement ce site Web. Il suffit de remplacer arXiv dans n'importe quelle URL par alphaXiv pour ouvrir directement l'article correspondant sur le forum alphaXiv : vous pouvez localiser avec précision les paragraphes dans. l'article, Phrase : dans la zone de discussion sur la droite, les utilisateurs peuvent poser des questions à l'auteur sur les idées et les détails de l'article. Par exemple, ils peuvent également commenter le contenu de l'article, tels que : "Donné à".

Récemment, l’hypothèse de Riemann, connue comme l’un des sept problèmes majeurs du millénaire, a réalisé une nouvelle avancée. L'hypothèse de Riemann est un problème mathématique non résolu très important, lié aux propriétés précises de la distribution des nombres premiers (les nombres premiers sont les nombres qui ne sont divisibles que par 1 et par eux-mêmes, et jouent un rôle fondamental dans la théorie des nombres). Dans la littérature mathématique actuelle, il existe plus d'un millier de propositions mathématiques basées sur l'établissement de l'hypothèse de Riemann (ou sa forme généralisée). En d’autres termes, une fois que l’hypothèse de Riemann et sa forme généralisée seront prouvées, ces plus d’un millier de propositions seront établies sous forme de théorèmes, qui auront un impact profond sur le domaine des mathématiques et si l’hypothèse de Riemann s’avère fausse, alors parmi eux ; ces propositions qui en font partie perdront également de leur efficacité. Une nouvelle percée vient du professeur de mathématiques du MIT, Larry Guth, et de l'Université d'Oxford

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Les modèles linguistiques peuvent-ils vraiment être utilisés pour la prédiction de séries chronologiques ? Selon la loi des gros titres de Betteridge (tout titre d'actualité se terminant par un point d'interrogation peut recevoir une réponse « non »), la réponse devrait être non. Le fait semble être vrai : un LLM aussi puissant ne peut pas bien gérer les données de séries chronologiques. Les séries chronologiques, c'est-à-dire les séries chronologiques, comme leur nom l'indique, font référence à un ensemble de séquences de points de données disposées par ordre temporel. L'analyse des séries chronologiques est essentielle dans de nombreux domaines, notamment la prévision de la propagation des maladies, l'analyse du commerce de détail, la santé et la finance. Dans le domaine de l'analyse des séries chronologiques, de nombreux chercheurs ont récemment étudié comment utiliser les grands modèles linguistiques (LLM) pour classer, prédire et détecter les anomalies dans les séries chronologiques. Ces articles supposent que les modèles de langage capables de gérer les dépendances séquentielles dans le texte peuvent également se généraliser aux séries chronologiques.

La colonne AIxiv est une colonne où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com. Introduction Ces dernières années, l'application de grands modèles de langage multimodaux (MLLM) dans divers domaines a connu un succès remarquable. Cependant, en tant que modèle de base pour de nombreuses tâches en aval, le MLLM actuel se compose du célèbre réseau Transformer, qui
