Auteur | Bai Fan, Université chinoise de Hong Kong
Éditeur | ScienceAI
Récemment, l'Université chinoise de Hong Kong et Zhiyuan ont proposé conjointement la série de travaux M3D, comprenant M3D-Data, M3D-LaMed et M3D. -Bench, à partir d'ensembles de données, de modèles et d'évaluation pour favoriser le développement de l'analyse d'images médicales 3D sous tous ses aspects.
(1) M3D-Data est actuellement le plus grand ensemble de données d'images médicales 3D, comprenant M3D-Cap (120 000 paires d'images et de textes 3D), M3D-VQA (510 000 paires de questions et réponses), M3D-Seg (150 000 paires de textes 3D) , M3D-RefSeg (segmentation d'inférence 3K) comporte quatre sous-ensembles de données.
(2) M3D-LaMed est actuellement le grand modèle médical multimodal 3D le plus polyvalent, capable de résoudre du texte (diagnostic de maladie, récupération d'images, questions et réponses visuelles, génération de rapports, etc.), de positionnement (détection de cible, visualisation positionnement, etc.) et segmentation (segmentation sémantique, segmentation de référence, segmentation par inférence, etc.) trois types de tâches d'analyse médicale.
(3) M3D-Bench peut évaluer de manière complète et automatique 8 tâches, couvrant trois aspects du texte, du positionnement et de la segmentation, et fournit des données de test vérifiées manuellement.
Nous publierons l'ensemble de données, le modèle et le code dès avril 2024.
Récemment, nous avons fourni un modèle M3D-LaMed-Phi-3-4B plus petit et plus puissant, et ajouté une démo en ligne pour que tout le monde puisse en faire l'expérience !
Veuillez prêter attention aux mises à jour de la bibliothèque GitHub pour connaître les derniers progrès. Si vous avez des questions ou des suggestions, vous pouvez nous contacter à temps. Tout le monde est invité à discuter et à soutenir notre travail.
Que pouvons-nous apporter aux chercheurs en lien avec les images médicales ?
Vidéo de démonstration en ligne.
L'analyse d'images médicales est essentielle au diagnostic et au traitement cliniques, et les grands modèles multimodaux de langage (MLLM) le soutiennent de plus en plus. Cependant, les recherches antérieures se sont principalement concentrées sur les images médicales 2D, et bien que les images 3D contiennent des informations spatiales plus riches, elles n’ont pas été suffisamment étudiées et explorées.
Cet article vise à faire progresser l'analyse d'images médicales 3D à l'aide de MLLM. À cette fin, nous proposons un ensemble de données médicales multimodales 3D à grande échelle, M3D-Data, qui contient 120 000 paires image-texte et 662 000 paires instruction-réponse, spécifiquement adaptées à diverses tâches médicales 3D, telles que la récupération image-texte, la génération de rapports, réponse visuelle aux questions, localisation et segmentation.
De plus, nous proposons M3D-LaMed, un modèle multimodal polyvalent en grand langage pour l'analyse d'images médicales 3D.
Nous introduisons également un nouveau benchmark médical multimodal 3D, M3D-Bench, qui facilite l'évaluation automatique en huit tâches. Grâce à une évaluation complète, notre approche s’est avérée être un modèle d’analyse d’images médicales 3D robuste qui surpasse les solutions existantes. Tous les codes, données et modèles sont accessibles au public sur .
Dataset
M3D-Data comprend un total de 4 sous-ensembles de données, à savoir M3D-Cap (paires d'images et de texte), M3D-VQA (paire de questions et réponses visuelles), M3D-RefSeg (segmentation d'inférence) et M3D. -Seg (intégration de 25 jeux de données de segmentation 3D).
Modèle
La structure du modèle M3D-LaMed est présentée dans la figure ci-dessous. (a) L'encodeur d'image 3D est pré-entraîné à partir de données d'image et de texte via une perte d'apprentissage contrastive intermodale et peut être directement appliqué aux tâches de récupération d'images et de texte. (b) Dans le modèle M3D-LaMed, les images médicales 3D sont entrées dans l'encodeur d'images 3D pré-entraîné et le perceptron de pooling spatial 3D efficace, et le jeton visuel est inséré dans le LLM, et la sortie [SEG] est utilisée comme un invite à piloter le module de segmentation.
Expériences
Récupération de graphiques et de textes
Dans la récupération de graphiques et de textes 3D, les modèles visent à faire correspondre les images et le texte d'un ensemble de données en fonction de la similarité, impliquant généralement deux tâches : la récupération de texte à image (TR ) et la récupération d'image en texte (IR).
Génération de rapports
Dans la génération de rapports, le modèle génère des rapports textuels basés sur des informations extraites d'images médicales 3D.
Réponse aux questions visuelles fermées
Dans la réponse aux questions visuelles fermées, le modèle doit être fourni avec des candidats à réponse fermée, tels que A, B, C, D, et le modèle doit sélectionner la bonne réponse des candidats.
Question et réponse visuelles ouvertes
Dans les questions et réponses visuelles ouvertes, le modèle génère des réponses ouvertes sans aucun indice de réponse ni candidat.
Positionnement
Le positionnement est crucial dans les tâches de langage visuel, en particulier celles impliquant des zones d'entrée et de sortie. Les tâches de la zone de sortie, telles que la compréhension de l'expression référente (REC), visent à localiser un objet cible dans une image sur la base d'une représentation référente. En revanche, les tâches de zone de saisie, telles que la génération d'expressions référentes (REG), nécessitent que le modèle génère une description d'une région spécifique basée sur une image et une zone de localisation.
Segmentation
La tâche de segmentation est cruciale dans l'analyse d'images médicales 3D en raison de ses capacités de reconnaissance et de localisation. Pour répondre à divers indices textuels, la segmentation est divisée en segmentation sémantique et segmentation d'expression référentielle. Pour la segmentation sémantique, le modèle génère des masques de segmentation basés sur des étiquettes sémantiques. La segmentation des expressions référentielles nécessite une segmentation cible basée sur la description de l'expression en langage naturel, ce qui nécessite que le modèle ait certaines capacités de compréhension et de raisonnement.
Étude de cas de problèmes hors distribution (OOD)
Nous avons testé le modèle M3D-LaMed sur une conversation OOD, ce qui signifie que tous les problèmes ne sont pas pertinents pour nos données de formation. Nous avons constaté que M3D-LaMed possède de fortes capacités de généralisation et peut produire des réponses raisonnables aux problèmes OOD plutôt que du charabia. Dans chaque série de conversations, l'avatar et les questions à gauche proviennent de l'utilisateur, et l'avatar et les réponses à droite proviennent de M3D-LaMed.
Notre dernier modèle M3D-LaMed-Phi-3-4B plus petit et formé a de meilleures performances, tout le monde est invité à l'utiliser ! GoodBaiBai88/M3D-LaMed-Phi-3-4B · Hugging Face
Résumé
Notre série d'études M3D promeut l'utilisation du MLLM pour l'analyse d'images médicales 3D. Plus précisément, nous construisons un ensemble de données médicales multimodales 3D à grande échelle, M3D-Data, qui contient 120 000 paires image-texte 3D et 662 000 paires instruction-réponse, adaptées aux tâches médicales 3D. De plus, nous proposons M3D-LaMed, un modèle général qui gère la récupération de texte d'image, la génération de rapports, la réponse visuelle aux questions, la localisation et la segmentation. De plus, nous introduisons un benchmark complet, M3D-Bench, soigneusement conçu pour huit tâches.
Notre approche pose une base solide pour que MLLM comprenne la vision et le langage des scènes médicales 3D. Nos données, notre code et nos modèles faciliteront une exploration et une application plus approfondies du MLLM médical 3D dans les recherches futures. Nous espérons que nos travaux pourront être utiles aux chercheurs dans le domaine, et tout le monde est invité à les utiliser et à en discuter.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!