Maison > Périphériques technologiques > IA > Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par l'équipe de l'Université Jiao Tong de Shanghai.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par l'équipe de l'Université Jiao Tong de Shanghai.

王林
Libérer: 2024-07-12 10:52:01
original
497 Les gens l'ont consulté

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Auteur | Université Jiao Tong de Shanghai, Laboratoire d'intelligence artificielle de Shanghai

Éditeur | ScienceAI

Récemment, l'équipe conjointe de l'Université Jiao Tong de Shanghai et du Laboratoire d'intelligence artificielle de Shanghai a publié un grand modèle de segmentation d'images médicales 3D SAT (Segment Anything in scans radiologiques, pilotés par des invites textuelles), sur des images médicales 3D (CT, IRM, TEP), basées sur des invites textuelles pour réaliser une segmentation universelle de 497 types d'organes/lésions du corps humain. Toutes les données, codes et modèles sont open source.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Lien papier :https://arxiv.org/abs/2312.17183

Lien code :https://github.com/zhaoziheng/SAT

Lien données :https://github .com/zhaoziheng/SAT-DS/

Contexte de recherche

La segmentation des images médicales joue un rôle important dans une série de tâches cliniques telles que le diagnostic, la planification chirurgicale et la surveillance des maladies. Cependant, la recherche traditionnelle forme des modèles « dédiés » pour chaque tâche de segmentation spécifique, ce qui fait que chaque modèle « dédié » a un champ d'application relativement limité et est incapable de répondre efficacement et commodément à un large éventail de besoins de segmentation médicale.

Dans le même temps, les grands modèles de langage ont récemment connu un grand succès dans le domaine médical, et pour promouvoir davantage le développement de l'intelligence artificielle médicale générale, il est devenu nécessaire de construire un outil de segmentation médicale capable de connecter les capacités de langage et de positionnement.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 1 : SAT est fondamentalement différent des cadres de segmentation existants.

Pour surmonter ces défis, des chercheurs de l'Université Jiao Tong de Shanghai et du Laboratoire d'intelligence artificielle de Shanghai ont proposé le premier modèle de segmentation universel pour les images médicales 3D basé sur l'amélioration des connaissances et utilisant des invites textuelles, appelé SAT (Segment Anything in radiology scans), piloté par Text. invites), et a apporté les trois contributions principales suivantes :

1. Cette étude est la première à explorer l'injection de connaissances sur l'anatomie humaine dans un encodeur de texte pour coder avec précision les termes anatomiques et obtenir des invites de texte. .

2. Cette recherche construit le premier graphe de connaissances médicales multimodal contenant plus de 6 000 concepts d'anatomie humaine. Dans le même temps, le plus grand ensemble de données de segmentation d'images médicales 3D a été construit, appelé SAT-DS, qui rassemble 72 ensembles de données publiques, plus de 22 000 images issues des modalités CT, IRM et TEP, et plus de 302 000 annotations de segmentation, couvrant le corps humain 497. les objectifs de segmentation en 8 parties principales.

3. Basée sur SAT-DS, cette étude a formé deux modèles de tailles différentes : SAT-Pro (447 M de paramètres) et SAT-Nano (110 M de paramètres), et a conçu des expériences pour vérifier la valeur de SAT sous plusieurs angles : SAT The les performances sont équivalentes à celles de 72 modèles experts nnU-Nets (les paramètres sont ajustés et optimisés séparément sur chaque ensemble de données, soit un total d'environ 2,2 milliards de paramètres) et montrent une capacité de généralisation plus forte sur les données SAT hors domaine ; En tant que modèle de segmentation de base pré-entraîné sur des données à grande échelle, il peut afficher de meilleures performances que les nnU-Nets lorsqu'il est transféré à des tâches spécifiques via un réglage fin en aval. De plus, par rapport à MedSAM basé sur des invites de boîte, SAT peut obtenir des résultats plus précis et plus précis ; des performances précises basées sur des invites textuelles. Une segmentation plus efficace ; enfin, sur des données cliniques en dehors du domaine, l'équipe de recherche a démontré que SAT peut être utilisé comme outil proxy pour de grands modèles de langage, dotant directement ces derniers de capacités de localisation et de segmentation dans des tâches telles que comme génération de rapport.

Ce qui suit présentera les détails de l'article original sous trois aspects : les données, le modèle et les résultats expérimentaux.

Construction de données

Graphique de connaissances multimodal : Afin d'obtenir un encodage précis des termes anatomiques, l'équipe de recherche a d'abord collecté un graphe de connaissances multimodal contenant plus de 6 000 concepts de l'anatomie humaine, dont le contenu provient de trois sources :

1. Unified Medical Language System (UMLS) est un dictionnaire biomédical construit par la National Library of Medicine des États-Unis. L’équipe de recherche a extrait près de 230 000 concepts et définitions biomédicales, ainsi qu’un graphique de connaissances couvrant plus d’un million de relations mutuelles.

2. Connaissances faisant autorité en anatomie sur Internet. L'équipe de recherche a examiné 6 502 concepts de l'anatomie humaine et récupéré des informations pertinentes sur Internet à l'aide d'un grand modèle de langage amélioré par la récupération, obtenant plus de 6 000 concepts et définitions et une carte des connaissances couvrant plus de 38 000 relations entre les structures anatomiques.

3. Ensemble de données de segmentation publique. L'équipe de recherche a collecté un ensemble de données publiques de segmentation d'images médicales 3D à grande échelle et a connecté les zones segmentées via des concepts anatomiques (étiquettes de catégorie) avec les connaissances de la base de connaissances textuelle mentionnée ci-dessus pour fournir une comparaison visuelle des connaissances.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 2 : Graphique multimodal des connaissances sur l’anatomie humaine.

SAT-DS : Afin de former un modèle de segmentation universel, l'équipe de recherche a construit SAT-DS, la plus grande collection de données de segmentation d'images médicales 3D dans le domaine. En particulier, 72 ensembles de données de segmentation publics divers ont été collectés et organisés, comprenant un total de 22 186 images 3D, 302 033 annotations de segmentation, à partir de trois modalités : CT, IRM et TEP, et 497 segmentations couvrant 8 régions principales de la catégorie du corps humain (. structure anatomique ou lésion).

Afin de minimiser les différences entre les ensembles de données hétérogènes, l'équipe de recherche a standardisé l'orientation, l'espacement des voxels, la valeur de gris et d'autres attributs d'image entre différents ensembles de données, et a nommé les différents ensembles de données à l'aide d'une catégorie de segmentation de système de terminologie anatomique unifiée.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 3 : SAT-DS est une collection de données de segmentation d'images médicales 3D diversifiées à grande échelle, couvrant un total de 497 catégories de segmentation dans 8 zones principales du corps humain.

Architecture du modèle

Injection de connaissances : Afin de créer un encodeur rapide capable d'encoder avec précision des termes anatomiques, l'équipe de recherche a d'abord injecté des connaissances anatomiques multimodales dans l'encodeur de texte en utilisant l'apprentissage contrastif.

Comme le montre la figure a ci-dessous, des concepts anatomiques sont utilisés pour connecter les connaissances multimodales en paires, puis un encodeur visuel et un encodeur de texte sont utilisés pour encoder respectivement les connaissances visuelles et textuelles, et les caractéristiques sont apprises par contraste en alignant les visuels. caractéristiques des structures anatomiques avec une connaissance textuelle dans l'espace et en construisant des relations entre les structures anatomiques, nous apprenons un meilleur codage des concepts anatomiques et servons d'indices pour guider la formation de modèles de segmentation visuelle.

Segmentation universelle basée sur des invites textuelles : L'équipe de recherche a en outre conçu un cadre de modèle de segmentation universel basé sur des invites textuelles, comme le montre la figure b ci-dessous, comprenant un encodeur de texte, un encodeur visuel, un décodeur visuel et un décodeur d'invites.

Parmi eux, étant donné que la même structure anatomique présente des différences dans différentes images, le décodeur de repères (décodeur de requête) utilise les caractéristiques de l'image produites par l'encodeur visuel pour améliorer les caractéristiques du concept anatomique, c'est-à-dire les indices de segmentation. Enfin, le produit scalaire est calculé entre l'indice de segmentation et les caractéristiques au niveau des pixels émises par le décodeur visuel pour obtenir le résultat de prédiction de segmentation.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 4 : La construction de SAT se divise en deux étapes : l'injection de connaissances et la formation à la segmentation.

Évaluation du modèle

Cette étude compare SAT à deux méthodes représentatives, à savoir le modèle « spécialisé » nnU-Nets et le modèle de segmentation générale interactif MedSAM. L'évaluation comprend deux aspects : les tests d'ensembles de données dans le domaine (performances de segmentation complètes) et les tests d'ensembles de données hors domaine (capacités de migration de données intercentres). Les résultats de l'évaluation sont intégrés à partir de trois niveaux : ensemble de données, catégorie et région du corps humain :

  • Catégorie : les résultats de segmentation de la même catégorie entre différents ensembles de données sont résumés et moyennés

  • Région : sur la base des résultats de catégorie, les résultats de catégorie au sein de la même zone d'anatomie humaine sont résumés et moyennés ;

  • Ensemble de données : traditionnel La méthode d'évaluation du modèle de segmentation, les résultats de segmentation au sein du même ensemble de données sont moyennés

Expérience comparative avec le modèle dédié nnU-Nets

Afin de maximiser le performances des nnU-Nets, l'étude a effectué une analyse de données distincte sur chaque donnée individuelle nnU-Nets formée sur l'ensemble et comparée à SAT. Les paramètres spécifiques sont les suivants :

1 Dans le test dans le domaine, les 72. Les ensembles de données de SAT-DS sont utilisés à des fins de test et de comparaison. Pour SAT, la somme de 72 ensembles de formation est utilisée pour la formation et testée sur 72 ensembles de tests ; pour les nnU-Nets, les résultats de 72 nnU-Nets sur leurs ensembles de tests respectifs sont résumés dans leur ensemble.

2. Dans le test hors domaine, 72 ensembles de données ont été divisés et les ensembles d'entraînement de 49 ensembles de données (nommés SAT-DS-Nano) ont été utilisés pour entraîner SAT-Nano et le test zéro tir ; pour les nnU-Nets, 49 nnU-Nets sont utilisés pour tester sur 10 ensembles de tests hors domaine et les résultats sont résumés.

Tableau 1 : Comparaison des tests dans le domaine de SAT-Pro, SAT-Nano, SAT-Pro-Ft et nnU-Nets, les résultats sont intégrés en unités de régions ou de lésions. H&N signifie Head and Neck, UL signifie Upper Limb et LL signifie Lower Limb. Les catégories apparaissant dans plusieurs régions sont classées comme Corps entier (WB) et Tout représente le résultat moyen de 497 catégories.
Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Résultats des tests dans le domaine : Comme le montre le tableau 1, SAT-Pro a montré des performances très proches de celles de 72 nnU-Nets dans le test dans le domaine et a surpassé les nnU-Nets dans plusieurs domaines. Il convient de noter que SAT peut effectuer 72 tâches de segmentation avec un seul modèle et que la taille du modèle est beaucoup plus petite que l'ensemble des nnU-Nets (comme le montre la figure c ci-dessous).

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 5 : Comparaison complète de SAT-Pro, SAT-Nano et nnU-Nets.

Résultats des tests de migration affinés : L'étude a ensuite testé SAT-Pro sur chaque ensemble de données après un réglage fin séparément, nommé SAT-Pro-Ft. Comme le montre le tableau 1, SAT-Pro-Ft présente des améliorations de performances significatives dans tous les domaines par rapport à SAT-Pro et dépasse nnU-Nets en termes de performances globales.

Résultats des tests hors domaine : Comme le montre le tableau 2, SAT-Nano a dépassé nnU-Nets dans 19 des 20 indicateurs dans 10 ensembles de données, montrant des capacités de migration globalement plus fortes.

Tableau 2 : Comparaison des tests hors domaine entre SAT-Nano, nnU-Nets et MedSAM Les résultats sont présentés en unités d'ensembles de données.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Expérience comparative avec le modèle de segmentation interactif MedSAM

Cette étude utilise directement le point de contrôle public de MedSAM pour les tests et la comparaison SAT. Les paramètres spécifiques sont les suivants :

1. données Nous avons en outre examiné 32 ensembles de données utilisés dans la formation MedSAM à des fins de comparaison.

2. Lors du test hors domaine, 5 ensembles de données qui n'ont pas été utilisés dans la formation MedSAM ont été sélectionnés à des fins de comparaison.

Pour MedSAM, envisagez deux invites Box différentes : en utilisant le plus petit rectangle (Oracle Box) contenant la segmentation de la vérité terrain, enregistré comme MedSAM (Tight) ; en ajoutant des décalages aléatoires basés sur Oracle Box, enregistré comme MedSAM (Loose). En même temps, testez l'effet d'Oracle Box directement en tant que prédiction. Pour SAT, le modèle de l'expérience de comparaison nnU-Nets est directement utilisé pour tester ces ensembles de données sans recyclage.

Résultats des tests dans le domaine :Comme le montre le tableau 3, SAT-Pro fonctionne mieux que MedSAM dans presque tous les domaines, et les performances globales de SAT-Pro et SAT-Nano sont meilleures que MedSAM. Bien que SAT-Pro soit moins performant que MedSAM sur les lésions, Oracle Box lui-même fonctionne assez bien sur les lésions en tant que prédiction, surpassant même MedSAM sur DSC. Cela indique que les performances supérieures de MedSAM dans la segmentation des lésions proviendront probablement des informations préalables solides fournies par Box.

Tableau 3 : Comparaison des tests dans le domaine de SAT-Pro, SAT-Nano et MedSAM, les résultats sont intégrés en unités de régions ou de lésions.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Comparaison qualitative : La figure 6 sélectionne deux exemples typiques à partir des résultats du test dans le domaine pour l'affichage visuel afin de comparer davantage SAT et MedSAM. Comme le montre la figure 6, dans la segmentation du myocarde, l'invite Box est difficile à distinguer entre le myocarde et les ventricules enveloppés par le myocarde. MedSAM a donc également segmenté par erreur les deux ensemble, ce qui montre que l'invite Box est similaire. relation spatiale complexe. Il est facile d’avoir des ambiguïtés, conduisant à une segmentation inexacte.

En revanche, la SAT basée sur des invites textuelles (saisie directe des noms des structures anatomiques) peut distinguer avec précision le myocarde et les ventricules. De plus, comme le montre la segmentation de la tumeur intestinale illustrée à la figure 6, Oracle Box constitue déjà un bon résultat de prédiction pour la cible de la lésion, tandis que le résultat de segmentation de MedSAM peut ne pas être meilleur que l'invite Box obtenue.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 6 : Comparaison qualitative entre SAT-Pro et MedSAM (Tight). Parmi eux, MedSAM utilise Oracle Box comme invite, et la boîte est marquée en bleu. La première rangée montre un exemple de segmentation du myocarde ; la deuxième rangée montre un exemple de segmentation d'une tumeur intestinale.

Résultats des tests hors domaine : Comme le montre le tableau 2, par rapport à MedSAM (Tight), SAT-Nano a surpassé MedSAM dans 5 indicateurs sur 10 dans 5 ensembles de données. MedSAM (Loose) présente une dégradation évidente des performances dans tous les indicateurs, indiquant que MedSAM est plus sensible au décalage de l'invite Box saisie par l'utilisateur.

Expérience d'ablation

Lors de la conception de SAT, le réseau fédérateur visuel et l'encodeur de texte sont deux éléments clés. Cette recherche tente d'utiliser différentes structures de réseau visuel ou encodeurs de texte dans le cadre SAT, ainsi que des expériences d'ablation générales pour explorer leur influence.

Afin d'économiser le coût des expériences, tous les entraînements et tests de modèles SAT dans les expériences d'ablation sont effectués sur SAT-DS-Nano contenant 49 ensembles de données, qui contiennent 13 303 images 3D, 151 461 annotations de segmentation et 429 catégories divisées.

Réseau fédérateur visuel : Dans le cadre de SAT-Nano, cette étude a sélectionné trois structures de réseau de segmentation principales à des fins de comparaison, à savoir U-Net (110 M de paramètres), SwinUNETR (107 M de paramètres) et U-Mamba (114 M de paramètres). Pour une comparaison équitable, les quantités de paramètres qui les contrôlent dans cette expérience d'ablation sont à peu près similaires. Dans le même temps, afin de calculer la surcharge, l'étape d'injection de connaissances est omise et MedCPT est utilisé directement (MedCPT est un encodeur de texte basé sur la littérature PubMed, formé à l'aide de 225 millions de données de clics d'utilisateurs privés et a obtenu les meilleures performances en une série de tâches de langage médical) car l'encodeur de texte génère des indices. Les trois variantes sont respectivement appelées U-Net-CPT, SwinUNETR-CPT et U-Mamba-CPT.

Comme vous pouvez le voir sur la figure 7, en utilisant U-Net et U-Mamba comme réseau fédérateur visuel, les performances de segmentation finale sont relativement proches, avec U-Net légèrement meilleure que U-Mamba tandis que les performances de segmentation lors de l'utilisation de SwinUNETR ; est un déclin nettement meilleur. Enfin, l’équipe de recherche a choisi U-Net comme réseau fédérateur visuel pour SAT.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 7 : Expérience d'ablation pour le réseau de base visuel, les résultats sont présentés en unités de régions.

Encodeur de texte : Dans le cadre de SAT-Nano, cette étude a sélectionné trois encodeurs de texte représentatifs à des fins de comparaison : un encodeur de texte formé à l'aide de la méthode d'injection de connaissances proposée ci-dessus (notée Ours), l'état de l'art. l'encodeur de texte médical MedCPT est utilisé, ainsi que l'encodeur de texte BERT-base, qui n'est pas adapté aux données médicales, est utilisé.

Par souci d'équité, cette expérience d'ablation utilise uniformément U-Net comme réseau visuel. Les trois variantes sont respectivement appelées U-Net-Ours, U-Net-CPT et U-Net-BB. Comme le montre la figure 8, dans l'ensemble, l'utilisation de MedCPT présente une légère amélioration des performances de segmentation par rapport à l'utilisation de la base BERT, ce qui indique que la connaissance du domaine est utile pour fournir de bons conseils de segmentation, tandis que l'utilisation de l'encodeur de texte proposé dans cette étude a obtenu les meilleures performances ; obtenus dans toutes les catégories, ce qui indique que la construction d'une base de connaissances multimodale sur l'anatomie humaine et l'injection de connaissances sont très utiles pour les modèles de segmentation.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 8 : Expérience d'ablation sur un encodeur de texte, résultats présentés en unités de régions. BB identifie la base BERT.

La distribution à longue traîne est une caractéristique évidente des ensembles de données segmentés. Comme le montrent les figures 9 a et b, l'équipe de recherche a étudié la répartition du nombre d'annotations de 429 catégories dans SAT-DS-Nano utilisé pour les expériences d'ablation. Si les 10 catégories avec le plus grand nombre d'annotations (2,33 %) sont définies comme classes de tête, et les 150 catégories avec le moins d'annotations (34,97 %) sont définies comme classes de queue, on peut constater que le nombre de les annotations pour les classes de queue ne représentent que 3,25 du nombre total d'annotations.

Cette étude explore plus en détail l'impact des encodeurs de texte sur les résultats de segmentation de différentes catégories dans les distributions longue traîne. Comme le montre la figure 9c, l'encodeur proposé par l'équipe de recherche a obtenu les meilleures performances dans les catégories tête, queue et milieu, l'amélioration dans la catégorie queue étant plus évidente que celle dans la catégorie tête. Dans le même temps, MedCPT a des performances légèrement inférieures à celles de la base BERT sur la classe principale, mais de meilleures performances sur la classe queue. Ces résultats montrent que la connaissance du domaine, en particulier l’injection de connaissances multimodales sur l’anatomie humaine, est considérablement utile pour la segmentation des catégories à longue traîne.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 9 : L'impact de l'injection de connaissances sur les catégories longue traîne dans les tâches de segmentation. Les figures a et b montrent la répartition du nombre d'annotations pour 429 catégories dans SAT-DS-Nano ; la figure c montre les performances de SAT-Nano en utilisant différents encodeurs de texte sur les catégories de tête, de queue et du milieu.

Combiné avec de grands modèles de langage

Étant donné que SAT peut être segmenté en fonction d'invites de texte, il peut être directement utilisé comme outil proxy pour les grands modèles de langage afin de fournir des capacités de segmentation. Afin de démontrer des scénarios d'application, l'équipe de recherche a sélectionné 4 données cliniques réelles diverses, a utilisé GPT4 pour extraire les cibles de segmentation du rapport et a appelé SAT pour segmentation sans tir. Les résultats sont présentés dans la figure 10.

Comme vous pouvez le voir, GPT-4 peut très bien détecter les structures anatomiques importantes dans le rapport et appeler SAT pour les segmenter très bien sur des images cliniques réelles sans aucun réglage précis des données.

Le grand modèle médical 3D open source SAT prend en charge 497 organoïdes et a des performances supérieures à 72 nnU-Nets. Il a été publié par léquipe de lUniversité Jiao Tong de Shanghai.

Figure 10 : Les résultats de l'utilisation de GPT4 pour extraire les structures anatomiques clés du rapport et appeler la segmentation SAT sur des images cliniques réelles.

Valeur de recherche

En tant que premier modèle de segmentation générale à grande échelle d'images médicales 3D basé sur des invites textuelles, la valeur de SAT se reflète dans de nombreux aspects :

  • SAT construit une segmentation universelle efficace et flexible : SAT-Pro utilise un seul modèle, affichant des performances comparables à 72 nnU-Nets sur un large éventail de tâches de segmentation, et dispose d'un plus petit nombre de paramètres de modèle. Cela montre que par rapport aux méthodes de segmentation médicale traditionnelles qui nécessitent la configuration, la formation et le déploiement d'une série de modèles spécialisés, SAT-Pro en tant que modèle de segmentation générale est une solution plus flexible et plus efficace. Dans le même temps, l'équipe de recherche a également prouvé que SAT-Pro offre de meilleures performances de généralisation sur les données hors région et peut mieux répondre aux besoins cliniques tels que la migration intercentres.

  • SAT est un modèle de base basé sur un pré-entraînement de données de segmentation à grande échelle : une fois que SAT-Pro est formé sur un ensemble de données de segmentation à grande échelle, il montre des améliorations significatives des performances lorsqu'il est transféré à un ensemble de données spécifique via un traitement fin. tuning et fonctionne globalement mieux que les nnU-Nets. Cela indique que SAT peut être considéré comme un modèle de segmentation de base puissant, capable de mieux fonctionner sur des tâches spécifiques grâce à un transfert affiné, équilibrant ainsi les besoins cliniques de la segmentation générale et de la segmentation spécialisée.

  • SAT obtient une segmentation précise et robuste basée sur des invites de texte : par rapport au modèle de segmentation interactif basé sur des invites de boîte, SAT basé sur des invites de texte peut obtenir des résultats de segmentation plus précis et plus robustes, et peut faire économiser beaucoup aux utilisateurs. de temps pour dessiner des boîtes, réalisant ainsi une segmentation universelle automatique et par lots.

  • SAT peut être utilisé comme outil proxy pour les grands modèles de langage : l'équipe de recherche a démontré sur des données cliniques réelles que SAT peut être connecté de manière transparente à de grands modèles de langage, en utilisant le texte comme pont pour fournir directement des capacités de segmentation et de positionnement à tout type de langage. grand modèle de langage. Ceci est d’une grande valeur pour promouvoir davantage le développement de l’intelligence artificielle médicale généraliste.

  • L'impact de la taille du modèle sur la segmentation : En entraînant deux modèles de tailles différentes : SAT-Nano et SAT-Pro, cette étude a observé que SAT-Pro a une amélioration significative par rapport à SAT-Nano dans le test in-domain . Cela implique que la loi d'échelle s'applique toujours lors de la formation de modèles de segmentation généraux sur des ensembles de données à grande échelle.

  • L'impact des connaissances du domaine sur la segmentation : L'équipe de recherche a proposé la première base de connaissances multimodale sur l'anatomie humaine et a exploré l'utilisation de l'amélioration des connaissances pour améliorer les performances des modèles de segmentation généraux, en particulier la segmentation des catégories à longue traîne. Étant donné que les annotations de segmentation, en particulier les annotations sur les catégories à longue traîne, sont relativement rares, cette exploration est d'une grande importance pour construire un modèle de segmentation général.

Les auteurs de l'article sont Zhao Ziheng, Zhang Yao, Wu Chaoyi, Zhang Xiaoman, le professeur Zhang Ya, le professeur Wang Yanfeng et le professeur Xie Weidi.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal