Bearbeiten |. Kohlblätter
Viele klinische Aufgaben erfordern das Verständnis professioneller Daten, wie z. B. medizinische Bilder, Genomik usw. Diese Art von Fachwissensinformationen gibt es normalerweise nicht beim Training allgemeiner multimodaler Großmodelle ...
In der Beschreibung des vorherigen Artikels hat Med-Gemini die Modellimplementierung der GPT-4-Serie bei verschiedenen medizinischen Bildgebungsaufgaben übertroffen SOTA!
Hier hat Google DeepMind einen zweiten Artikel über Med-Gemini geschrieben.
Basierend auf dem multimodalen Modell von Gemini entwickelte das Team mehrere Modelle für die Med-Gemini-Serie. Diese Modelle erben die Kernfunktionalität von Gemini und sind für den medizinischen Einsatz durch Feinabstimmung von 2D- und 3D-Daten aus den Bereichen Radiologie, Histopathologie, Ophthalmologie, Dermatologie und Genomik optimiert.
“ wurde am 6. Mai 2024 auf der Preprint-Plattform arXiv veröffentlicht.
Medizinische Datenquellen umfassen medizinische Daten aus verschiedenen Quellen wie Biobanken, elektronischen Gesundheitsakten, medizinischer Bildgebung, tragbaren Geräten, Biosensoren und Genomsequenzierung. Diese Daten treiben die Entwicklung multimodaler KI-Lösungen voran, um die Komplexität der Gesundheit und Krankheit der Bevölkerung besser zu erfassen.
KI in der Medizin hat sich in erster Linie auf enge Aufgaben mit einzelnen Eingabe- und Ausgabetypen konzentriert, aber die jüngsten Fortschritte in der generativen KI sind vielversprechend bei der Lösung multimodaler und aufgabenübergreifender Herausforderungen in medizinischen Umgebungen.
Multimodale generative KI, repräsentiert durch leistungsstarke Modelle wie Gemini, hat großes Potenzial, das Gesundheitswesen zu revolutionieren. Während die Medizin eine Datenquelle für die schnelle Iteration dieser neuen Modelle ist, schneiden allgemeine Modelle aufgrund ihrer hochspezialisierten Daten bei der Anwendung im medizinischen Bereich oft schlecht ab.
Basierend auf den Kernfunktionen von Gemini hat DeepMind drei neue Modelle der Med-Gemini-Serie auf den Markt gebracht: Med-Gemini-2D, Med-Gemini-3D und Med-Gemini-Polygenic.
Zur Verarbeitung von 3D-Daten (CT) wird der Gemini-Videoencoder verwendet, bei dem die zeitliche Dimension als Tiefendimension behandelt wird. Zur Verarbeitung genomischer Daten wurden Risikobewertungen für verschiedene Merkmale als RGB-Pixel im Bild kodiert.
Abbildung: Beispiel für die Vorhersage einer koronaren Herzkrankheit mithilfe des PRS-Bildes und der demografischen Informationen einer Person. (Quelle: Paper)
Med-Gemini-2DMed-Gemini-2D setzt einen neuen Standard für die Erstellung von AI-basierten Thorax-Röntgenberichten (CXR) auf der Grundlage einer Expertenbewertung und übertrifft zwei bisherige unabhängige Daten. Die Besten Ergebnisse des Satzes mit absoluten Vorteilen von 1 % und 12 %, wobei die normalen Fallberichte von AI 57 % und 96 % ausmachten und die Berichte über abnormale Fälle 43 % und 65 % betrugen. Im Vergleich zum ursprünglichen Bericht des Radiologen ist die Qualität „ „vergleichbar“ oder sogar „besser“.
Grafik: Med-Gemini-2D-Leistung bei der Röntgenklassifizierungsaufgabe des Brustkorbs. (Quelle: Paper)
Med-Gemini-2D übertrifft das allgemein größere Gemini 1.0 Ultra-Modell bei der Aufgabe der verteilten Bruströntgenklassifizierung (zu sehen an Beispielen aus demselben Datensatz während des Trainings). Bei Aufgaben außerhalb der Verteilung variiert die Leistung.
Abbildung: Med-Gemini-2D-Histopathologie-Bildklassifizierungsleistung. (Quelle: Papier)
Ein ähnlicher Trend ist bei der Klassifizierung von Hautläsionen zu beobachten (domänenspezifisches Modell > Med-Gemini > Gemini Ultra), obwohl Med-Gemini dem domänenspezifischen Modell sehr nahe kommt.
Bei der ophthalmologischen Klassifizierung zeigt sich erneut eine ähnliche Situation. Beachten Sie, dass domänenspezifische Modelle auf etwa 200-mal mehr Daten trainiert werden, sodass Med-Gemini im Vergleich recht gut abschneidet.
Das Team evaluierte auch das Med-Gemini-2D-Modell bei der Beantwortung medizinischer visueller Fragen (VQA). Hier ist ihr Modell bei vielen VQA-Aufgaben sehr leistungsstark und übertrifft oft SOTA-Modelle. Med-Gemini-2D schnitt bei der CXR-Klassifizierung und der radiologischen VQA gut ab und übertraf bei 17 von 20 Aufgaben die SOTA oder den Ausgangswert.
Über eine einfache, enge Interpretation medizinischer Bilder hinaus bewerten die Autoren auch die Leistung von Med-Gemini-2D bei der Erstellung von Thorax-Röntgenradiologieberichten und stellen fest, dass es auf der Grundlage der SOTA-Bewertung durch Radiologieexperten erreicht!
Med-Gemini-3D
Med-Gemini-3D eignet sich nicht nur für 2D-Bilder, sondern auch für die automatisierte End-to-End-CT-Berichterstellung. Laut Experteneinschätzung wurden 53 % dieser KI-Berichte als klinisch akzeptabel erachtet, und obwohl weitere Forschung erforderlich ist, um die Qualität der Berichte von erfahrenen Radiologen zu erreichen, ist dies das erste generative Modell, das dieser Aufgabe gewachsen ist.
Med-Gemini-Polygenic
Abschließend wurde die Vorhersage von Gesundheitsergebnissen durch Med-Gemini-Polygenic auf der Grundlage polygener Risikoscores für verschiedene Merkmale bewertet. Das Modell übertrifft im Allgemeinen bestehende Basislinien.
Abbildung: Vorhersagen zu Gesundheitsergebnissen mithilfe von Med-Gemini-Polygenic im Vergleich zu zwei Basislinien für schlecht verteilte und nicht verteilte Ergebnisse. (Quelle: Paper)
Hier sind einige Beispiele für multimodale Gespräche, die von Med-Gemini unterstützt werden!
Bei der Bildklassifizierung in der Histopathologie, Ophthalmologie und Dermatologie übertraf Med-Gemini-2D den Ausgangswert in 18 von 20 Aufgaben und näherte sich der aufgabenspezifischen Modellleistung an.
Fazit
Insgesamt hat diese Arbeit nützliche Fortschritte bei einem allgemeinen multimodalen Modell der medizinischen künstlichen Intelligenz gemacht, aber es gibt offensichtlich noch viel Raum für Verbesserungen. Viele domänenspezifische Modelle übertreffen Med-Gemini, aber Med-Gemini kann mit weniger Daten und allgemeineren Methoden eine gute Leistung erbringen. Interessanterweise scheint Med-Gemini bei Aufgaben, die mehr auf dem Sprachverständnis beruhen, wie VQA oder der Erstellung von Radiologieberichten, eine bessere Leistung zu erbringen.
Forscher stellen sich eine Zukunft vor, in der all diese Einzelfunktionen in umfassende Systeme integriert werden, um eine Reihe komplexer multidisziplinärer klinischer Aufgaben zu erfüllen. KI arbeitet mit Menschen zusammen, um die klinische Wirksamkeit zu maximieren und die Patientenergebnisse zu verbessern.
Link zum Papier: https://arxiv.org/abs/2405.03162
Verwandter Inhalt: https://twitter.com/iScienceLuvr/status/1789216212704018469
Das obige ist der detaillierte Inhalt vonMultimodale KI ist die Zukunft der Medizin. Google bringt drei neue Modelle auf den Markt und Med-Gemini begrüßt ein großes Upgrade. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!