Die Shanghai Jiao Tong University und das Shanghai AI Lab haben eine 178-seitige medizinische Fallbewertung von GPT-4V veröffentlicht, die erstmals umfassend die visuelle Leistung von GPT-4V im medizinischen Bereich enthüllt. ArXiv-Link: https://arxiv.org/abs /2310.09909 Andere Papier-Download-Adresse: Baidu Cloud: https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2Google Drive: https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharingResearch Einführung Angetrieben durch groß angelegte Basismodelle hat die künstliche Intelligenz in letzter Zeit große Fortschritte gemacht, insbesondere die leistungsstarken Fähigkeiten von OpenAI in Bezug auf Fragen und Antworten sowie Wissen, die den Eureka-Moment im KI-Bereich erleuchtet und angezogen haben große öffentliche Aufmerksamkeit. GPT-4V(ision) ist das neueste multimodale Basismodell von OpenAI. Im Vergleich zu GPT-4 bietet es zusätzliche Bild- und Spracheingabefunktionen. Ziel dieser Studie ist es, die Leistung von GPT-4V(ision) im Bereich der multimodalen medizinischen Diagnose durch Fallanalyse zu bewerten. Insgesamt wurden 128 (92 radiologische Bewertungsfälle, 20 pathologische Bewertungsfälle und 16 Positionierungsfälle) angezeigt und analysiert . Fall) GPT-4V-Frage- und Antwortbeispiel mit jeweils insgesamt 277 Bildern (Hinweis: Dieser Artikel beinhaltet keine Falldarstellung, bitte beziehen Sie sich für die spezifische Falldarstellung und -analyse auf das Originalpapier). Zusammenfassend hofft der ursprüngliche Autor, die folgenden Fähigkeiten von GPT-4V systematisch bewerten zu können: Kann GPT-4V die Modalität und Bildposition medizinischer Bilder erkennen? Das Erkennen verschiedener Modalitäten (wie Röntgen, CT, MRT, Ultraschall und Pathologie) und die Identifizierung der Bildgebungsorte in diesen Bildern ist die Grundlage für komplexere Diagnosen. Kann GPT-4V verschiedene anatomische Strukturen in medizinischen Bildern lokalisieren? Die Lokalisierung spezifischer anatomischer Strukturen in Bildern ist entscheidend, um Anomalien zu erkennen und sicherzustellen, dass potenzielle Probleme richtig angegangen werden. Kann GPT-4V Anomalien in medizinischen Bildern finden und lokalisieren? Das Erkennen von Anomalien wie Tumoren, Frakturen oder Infektionen ist ein Hauptziel der medizinischen Bildanalyse. Im klinischen Umfeld müssen zuverlässige KI-Modelle diese Anomalien nicht nur erkennen, sondern sie auch lokalisieren, damit eine gezielte Intervention oder Behandlung durchgeführt werden kann. Kann GPT-4V mehrere Bilder zur Diagnose kombinieren? Die medizinische Diagnose erfordert häufig die Integration von Informationen aus verschiedenen Bildgebungsmodalitäten oder -ansichten für eine Gesamtbeobachtung. Daher ist es von entscheidender Bedeutung, die Fähigkeit von GPT-4V zu untersuchen, Informationen aus mehreren Bildern zu kombinieren und zu analysieren. Kann GPT-4V einen medizinischen Bericht verfassen, der abnormale Zustände und damit verbundene normale Befunde beschreibt? Für Radiologen und Pathologen ist das Verfassen von Berichten eine zeitaufwändige Aufgabe. Wenn GPT-4V bei diesem Prozess hilft und genaue und klinisch relevante Berichte erstellt, wird es zweifellos die Effizienz des gesamten Arbeitsablaufs steigern. Kann GPT-4V die Patientengeschichte bei der Interpretation medizinischer Bilder integrieren? Grundlegende Patienteninformationen und die medizinische Vorgeschichte können die Interpretation aktueller medizinischer Bilder erheblich beeinflussen. Wenn diese Informationen bei der Analyse von Bildern während des Modellvorhersageprozesses berücksichtigt werden können, wird die Analyse personalisierter und genauer. Kann GPT-4V Konsistenz und Gedächtnis über mehrere Interaktionsrunden hinweg aufrechterhalten? In einigen medizinischen Szenarien reicht eine einzelne Analyserunde möglicherweise nicht aus. Bei langen Gesprächen oder Analysen, insbesondere in komplexen Gesundheitsumgebungen, ist die Aufrechterhaltung der Kontinuität des Wissens über die Daten von entscheidender Bedeutung. Die Auswertung des Originalpapiers umfasste 17 medizinische Systeme, darunter: Zentralnervensystem, Kopf und Hals, Herz, Brust und Bauch, Kopf und Hals, Herz, Brust, Blut, Hepatobiliär, Magen-Darm, Urologie, Gynäkologie, Geburtshilfe, Brust, Anus , Bauch-, Gynäkologie-, Geburtshilfe-, Brust-, Muskel-Skelett-, Wirbelsäulen-, Gefäß-, Onkologie-, Trauma- und pädiatrische Bilder stammen aus 8 Modalitäten, die im täglichen klinischen Einsatz verwendet werden, darunter: Röntgen, Computertomographie (CT), Magnetresonanztomographie (MRT). , Positronenemissionstomographie (PET), digitale Subtraktionsangiographie (DSA), Mammographie, Ultraschall und Pathologie.
Schematisches Diagramm von 17 medizinischen Systemen und 8 BildgebungsmodalitätenIn der Arbeit wird darauf hingewiesen, dass GPT-4V zwar gute Leistungen bei der Unterscheidung medizinischer Bildgebungsmodalitäten und anatomischer Strukturen erbringt, bei der Krankheitsdiagnose und der Erstellung umfassender Berichte jedoch immer noch vor großen Herausforderungen steht . Diese Ergebnisse zeigen, dass große multimodale Modelle erhebliche Fortschritte in der Computervision und der Verarbeitung natürlicher Sprache gemacht haben, aber immer noch nicht ausreichen, um reale medizinische Anwendungen und klinische Entscheidungsfindung zu unterstützen.
Auswahl der Testfälle
Die radiologischen Fragen und Antworten des Originalpapiers stammen von [Radiopaedia] (https://radiopaedia.org/), die Bilder werden direkt von der Webseite heruntergeladen, die Positionierungsfälle stammen von mehreren medizinischen Fachkreisen Segmentierungsdatensätze und die pathologischen Bilder werden von [PathologyOutlines](https://www.pathologyoutlines.com/) abgerufen. Bei der Auswahl der Fälle hat der Autor die folgenden Aspekte umfassend berücksichtigt:
In Bezug auf die Bildverarbeitung hat der Autor außerdem die folgende Standardisierung vorgenommen, um die Qualität des Eingabebildes sicherzustellen:
原论文的测试均使用 GPT-4V 的 [网页版](https://chat.openai.com/)。第一轮问答用户会输入图像,然后展开多轮的问答。为了避免上下文的互相影响,对于每次新的案例,都会新建一个问答窗口进行问答。
GPT-4V 问答示例图中红色表示错误,黄色表示不确定,绿色表示正确。Reference 中的颜色表示对应判断的依据。未标记颜色的句子需要读者自行判断正确性。更多案例以及案例分析,请参考原论文。
病理评估
所有图像均进行两轮对话。
第一轮
询问能否仅根据输入图像生成报告。
目的:评估 GPT-4V 能否在不提供任何相关医疗提示的情况下识别图像模态和组织来源。
第二轮
用户提供正确的组织来源,询问 GPT-4V 是否能根据病理图像及其组织来源信息做出诊断。
希望 GPT-4V 能修改报告并提供明确的诊断结果。
在定位评估中,原论文采取了循序渐进的方式:
当然原作者也提到了一些测评中的不足与限制:
只能进行定性而非定量的评估
鉴于 GPT-4V 只提供在线网页界面,只能手动上传测试用例,导致原评估报告在可扩展性方面受到限制,因此只能提供定性评估。
样本偏差
所选样本均来自在线网站,可能无法反映日常门诊中的数据分布情况。尤其是大多数评估病例都是异常病例,这可能会给评估带来潜在偏差。
注释或参考答案并不完整
从Radiopaedia或者PathologyOutlines网站上获得的参考描述大多没有结构,也没有标准化的放射学/病理学报告格式。特别是,这些报告中的大部分主要侧重于描述异常情况,而不是对病例进行全面描述,并不能直接作为完美的回复简单对比。
只有二维切片输入
在实际临床环境中,包括 CT、MRI 扫描在内的放射图像通常采用 3D DICOM 格式。然而,GPT-4V 最多只能支持四张二维图像的输入,所以原文在测评时只能输入二维关键切片或小片段(用于病理学)。
总之,尽管评估可能并不彻底详尽,但原作者们相信,这一分析仍旧可以为研究人员和医学专业人员提供了宝贵的见解,它揭示了多模态基础模型的当前能力,并可能激励未来建立医学基础模型的工作。
重要观察结果
原测评报告根据测评案例,概括了多个观察到的GPT-4V的表现特点:
放射案例部分
作者们根据92个放射学评估案例和20个定位案例得出如下观察结果:
GPT4-V hat eine gute Verarbeitung für die meisten Aufgaben gezeigt, wie z. B. die modale Erkennung von Bildinhalten, die Bestimmung von Bildteilen und die Fähigkeit zur Bestimmung der Bildebenenkategorie. Die Autoren wiesen beispielsweise darauf hin, dass GPT-4V verschiedene Modalitäten wie MRT, CT und einfach unterscheiden kann.
Die Autoren stellten Folgendes fest: Einerseits scheint OpenAI einen Sicherheitsmechanismus eingerichtet zu haben, der GPT-4V andererseits streng daran hindert, direkte Diagnosen zu stellen , außer in sehr offensichtlichen Fällen. Für diagnostische Fälle verfügt GPT-4V über schlechte Analysefähigkeiten und beschränkt sich auf die Auflistung einer Reihe möglicher Krankheiten, kann jedoch keine genauere Diagnose stellen.
GPT-4V kann in den meisten Fällen mehr Standardberichte generieren, aber die Autoren glauben, dass im Vergleich zur Integration handschriftliche Berichte mit höherem Grad und flexiblerem Inhalt vorliegen In der Regel erfolgt die Beschreibung eher bildweise und es mangelt ihnen an umfassenden Funktionen für multimodale oder Multi-Frame-Bilder. Daher haben die meisten Inhalte nur einen geringen Referenzwert und es mangelt ihnen an Genauigkeit.
GPT-4V verfügt über eine starke Texterkennung, Markierungserkennung und andere Funktionen und wird es versuchen diese Marker zur Analyse. Die Autoren glauben jedoch, dass es folgende Einschränkungen gibt: Erstens verwendet GPT-4V immer zu viel Text und Tags und das Bild selbst wird zu einem sekundären Referenzobjekt. Zweitens ist es weniger robust und interpretiert häufig medizinische Informationen im Bild falsch.
In den meisten Fällen kann GPT4-V im menschlichen Körper implantierte medizinische Geräte korrekt identifizieren und deren Position relativ genau lokalisieren. Und die Autoren stellten fest, dass selbst in einigen der schwierigeren Fällen Diagnosefehler auftreten konnten, das Medizinprodukt jedoch als korrekt identifiziert wurde.
Die Autoren stellten fest, dass GPT-4V bei der Betrachtung von Bildern aus verschiedenen Perspektiven in derselben Modalität eine bessere Leistung als die Eingabe zeigt. Es verfügt über bessere Analysefunktionen für Da es sich jedoch um ein einzelnes Bild handelt, wird in der Regel jede Ansicht separat analysiert. Bei gemischten Eingaben von Bildern aus verschiedenen Modalitäten ist es für GPT-4V schwieriger, ein Bild zu erhalten, das Informationen aus verschiedenen Modalitäten kombiniert.
Die Autoren fanden heraus, dass die Angabe der Krankheitsgeschichte des Patienten einen größeren Einfluss auf die Antworten auf GPT-4V hat. Wenn eine Krankheitsgeschichte bereitgestellt wird, verwendet GPT-4V diese häufig als Schlüsselpunkt, um Rückschlüsse auf mögliche Anomalien im Bild zu ziehen. Wenn keine Krankheitsgeschichte bereitgestellt wird, verwendet GPT-4V das Bild eher als Schlüsselpunkt. Normalfälle werden analysiert.
Die Autoren glauben, dass der schlechte Positionierungseffekt von GPT-4V hauptsächlich auf Folgendes zurückzuführen ist: Erstens entfernt sich GPT-4V während des Positionierungsprozesses immer weiter von der Vorhersage Box der wahren Grenze; zweitens zeigt es eine signifikante Zufälligkeit in mehreren Runden wiederholter Vorhersagen desselben Bildes; drittens zeigt GPT-4V eine offensichtliche Verzerrung, zum Beispiel: klein Das Gehirn muss unten sein.
GPT-4V kann seine Reaktion über eine Reihe von Interaktionen hinweg so anpassen, dass sie korrekt ist. In dem im Artikel gezeigten Beispiel geben die Autoren beispielsweise MRT-Bilder von Endometriose ein. GPT-4V klassifizierte zunächst eine Becken-MRT fälschlicherweise als eine Knie-MRT, was zu einer falschen Ausgabe führte. Der Benutzer korrigierte das Problem jedoch durch mehrere Interaktionsrunden mit GPT-4V und stellte schließlich eine genaue Diagnose.
GPT-4V generiert immer Berichte, die von der Struktur her sehr vollständig und detailliert erscheinen, deren Inhalt jedoch falsch ist. Oftmals wird der Patient dennoch als normal betrachtet, selbst wenn der abnormale Bereich im Bild offensichtlich ist.
GPT-4V weist einen großen Leistungsunterschied bei häufigen und seltenen Bildern auf und zeigt auch offensichtliche Leistungsunterschiede in verschiedenen Körpersystemen. Darüber hinaus kann die Analyse desselben medizinischen Bildes aufgrund sich ändernder Eingabeaufforderungen zu inkonsistenten Ergebnissen führen. Beispielsweise beurteilt GPT-4V ein bestimmtes Bild zunächst als abnormal, wenn die Eingabeaufforderung „Was ist die Diagnose für dieses Gehirn-CT?“ lautet Bericht unter Berücksichtigung des gleichen Bildes wie normal. Diese Inkonsistenz macht deutlich, dass die Leistung von GPT-4V in der klinischen Diagnose möglicherweise instabil und unzuverlässig ist.
作者们发现GPT-4V已经在医学领域的问答中建立了防止潜在误用的安全防护措施,确保用户能够安全使用。例如,当GPT-4V被要求做出诊断时," Please provide the diagnosis for this chest X-ray.",它可能会拒绝给出答案,或强调“我不是专业医学建议的替代品”。在多数情况下,GPT-4V会倾向于使用包含“appears to be”或“could be”之类的短语来表示不确定性。
病理案例部分
此外,作者们为了探索GPT-4V在病理图像的报告生成和医学诊断方面的能力,对来自不同组织的20种恶性肿瘤病理图像开展了图像块级别的测试,并得出以下结论:
在所有测试案例中,GPT-4V都可以正确地识别所有病理图像(H&E染色的组织病理图像)的模态。
给定一个没有任何医学提示的病理图像,GPT-4V可以生成一个结构化且详细的报告来描述图像特征。在20个案例中,有7个案例能够使用如“组织结构”、“细胞特征”、“基质”、“腺体结构”、“细胞核”等术语明确地列出了
Das obige ist der detaillierte Inhalt von178 Seiten! Die erste umfassende Fallbewertung von GPT-4V (Ision) im medizinischen Bereich: Von der klinischen Anwendung und der praktischen Entscheidungsfindung ist es noch weit entfernt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!