178頁，128個案例，GPT-4V醫療領域全面測評，離臨床應用與實際決策尚有距離-人工智慧-PHP中文網

上海交大&上海AI Lab發布178頁GPT-4V醫療案例測評，首次全面揭秘GPT-4V醫療領域視覺表現。在大型基礎模式的推動下，人工智慧的發展近來取得了巨大進步，尤其是OpenAI 的GPT-4，其在問答、知識方面展現出的強大能力點亮了AI 領域的尤里卡時刻，引起了公眾的普遍關注。 GPT-4V (ision) 是 OpenAI 最新的多模態基礎模型。相較於 GPT-4，它增加了影像與語音的輸入能力。該研究則旨在透過案例分析評估GPT-4V (ision) 在多模態醫療診斷領域的性能，總共展現並分析共計了128（92 個放射學評估案例，20 個病理學評估案例以及16 個定位案例）個案例共277 張圖像的GPT-4V 問答實例（註：本文不會涉及案例展示，請參閱原始論文查看具體的案例展示與分析）。

178頁，128個案例，GPT-4V醫療領域全面測評，離臨床應用與實際決策尚有距離

GPT-4V 醫學影像評估

ArXiv 連結：https://arxiv.org/abs/2310.09909

百度雲下載位址：https://pan.baidu.com/s/11xV8M8Mwm

Google Drive 下載位址：https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

評估能力：

解剖結構定位：精確定位影像中的特定解剖結構。
異常檢測和定位：檢測和定位腫瘤、骨折或感染等異常。
多影像綜合診斷：結合不同影像模態或視圖的資訊進行診斷。
醫療報告撰寫：描述異常情況和相關的正常結果。
病患病史整合：在影像解讀中考慮病患的基本資訊和病史。
多輪互動中的一致性和記憶性：保持對資料認知的連續性。

評估系統：

頭頸部
心臟
胸部
血
🜎
乳房科
肌肉骨骼科
脊椎科
血管科
腫瘤科
創傷科
兒科
影像模態：
X 光振造影
影像模態：
數位減影血管攝影(DSA)

乳房X 光照相術

病理學檢查
測試案例挑選出來自原問
病理學檢查
Radiopaedia，影像直接從網頁下載，定位案例來自於多個醫學公開分割資料集，病理影像則來自於PathologyOutlines 。在挑選案例時作者們全面的考慮瞭如下方面：
公佈時間：考慮到GPT-4V 的訓練數據極有可能異常龐大，為了避免所選到的測試案例出現在訓練集中，作者只選用了2023 年發布的最新案例。
標註可信度：醫療診斷本身俱有爭議和模糊性，作者根據 Radiopaedia 提供的案例完成度，盡量選用完成度大於 90% 的案例來保證標註或診斷的可信程度。
影像模態多樣性：在選取案例時，作者盡可能地展示 GPT-4V 對於多種成像模態的反應情況。

多圖選擇：考慮到GPT-4V 支援的最大影像輸入上限為4，但部分案例會有超過4 張的相關影像，首先作者在選取案例時會盡可能避免這種情況，其次在不可避免當地遇到這種案例時，作者會根據Radiopaedia 提供的案例註釋挑選最相關的圖像。
截面選擇：大量的放射影像資料為 3D（連續多幀二維影像）形式，無法直接輸入 GPT-4V，必須挑選一個最有代表性的截面代替完整的 3D 影像輸入 GPT-4V。根據 Radiopaedia 的案例上傳規範，放射醫生在上傳 3D 影像時被要求選擇一個最相關的剖面。作者們利用了這一點，選用了 Radiopaedia 推薦的軸截面替代 3D 資料進行輸入。
影像標準化：醫療影像的標準化設計窗寬窗位的選擇，不同的視窗會突出不同的組織，作者們使用的 Radiopaedio 案例上傳時放射專家所選擇的窗寬窗位輸入影像。對於分割資料集而言，原論文則採用了 [-300,300] 的視窗，並作 0-1 的案例層級的歸一化。

原論文的測試都使用了 GPT-4V 的網頁版，第一輪問答使用者會輸入影像，然後展開多輪的問答。為了避免上下文的互相影響，對於每次新的案例，都會新建一個問答窗口進行問答。

178頁，128個案例，GPT-4V醫療領域全面測評，離臨床應用與實際決策尚有距離

GPT-4V 問答案例，圖中紅色代表錯誤，黃色代表不確定，綠色代表正確，Reference 中的顏色則代表對應判斷的依據，未標記顏色的句子需要讀者自行判斷正確性，更多案例以及案例分析請參考原論文
在病理評估中，所有影像都會進行兩輪對話。

第一輪詢問能否僅根據輸入影像產生報告。
這一輪的目的是評估 GPT-4V 能否在不提供任何相關醫療提示的情況下識別影像模態和組織來源。
在第二輪中，使用者會提供正確的組織來源，並詢問 GPT-4V 是否能根據病理影像及其組織來源資訊做出診斷，希望 GPT-4V 能修改報告並提供明確的診斷結果。
病理影像案例展示

定位評估

目標辨識： 確定影像中是否有目標。
邊界框產生： 為目標產生邊界框座標，其中左上角為 (0, 0)，右下角為 (w, h)。
IOU 計算： 計算預測邊界框與真實邊界框之間的交並比 (IOU)。
上限性能： 選擇具有最高 IOU 分數的預測邊界框。
平均效能： 計算平均邊界框的 IOU 分數。
評測中的限制
當然原作者也提到了一些測評中的不足與限制：
只能進行定性而非定量的評估
鑑於GPT-4V 只提供線上網頁介面，只能手動上傳測試案例，導致原評估報告在可擴展性方面受到限制，因此只能提供定性評估。
樣本偏差
所選樣本均來自線上網站，可能無法反映日常門診中的資料分佈情況。尤其是大多數評估病例都是異常病例，這可能會對評估造成潛在偏差。
註釋或參考答案並不完整
從 Radiopaedia 或 PathologyOutlines 網站上獲得的參考描述大多沒有結構，也沒有標準化的放射學 / 病理學報告格式。特別是，這些報告中的大部分主要側重於描述異常情況，而不是對病例進行全面描述，並不能直接作為完美的回應簡單對比。
只有二維切片輸入
在實際臨床環境中，包括 CT、MRI 掃描在內的放射影像通常採用 3D DICOM 格式。然而，GPT-4V 最多只能支援四張二維影像的輸入，所以原文在評估時只能輸入二維關鍵切片或小片段（用於病理學）。
總之，儘管評估可能並不徹底詳盡，但原作者們相信，這一分析仍舊可以為研究人員和醫學專業人員提供了寶貴的見解，它揭示了多模態基礎模型的當前能力，並可能激勵未來建立醫學基礎模型的工作。
重要觀察結果
原測評報告根據測評案例，概括了多個觀察到的GPT-4V 的表現特點：
放射案例部分
作者們根據92 個放射學評估案例和20 個定位案例得出如下觀察結果：
GPT-4V 可以辨識出醫療影像的模態以及成像位置
對於大多數影像內容的模態辨識、成像部位判定以及影像平面類別判定等任務，GPT4-V 都表現出了良好的處理能力。例如，作者指出GPT-4V 能很容易區分核磁共振、CT、X 光等各種模態；判斷影像所描述的人體具體部位；判斷出核磁共振影像的軸位、失狀位和冠狀位等。
GPT-4V 幾乎無法做出精確的診斷
作者們發現：一方面，OpenAI 似乎設定了安全機制，嚴格限制了GPT-4V 做出直接診斷；另一方面，除了針對非常明顯的診斷案例， GPT-4V 的分析能力較差，僅限於列舉可能存在的一系列疾病，而無法給予較精確的診斷。
GPT-4V 可以產生出結構化的報告，但是內容大部分並不正確
GPT-4V 在絕大多數情況下都能產生較為標準的報告，但作者們認為，相比於整合程度更高且內容更靈活的手寫報告，在針對多模態或多幀影像時，它更傾向於逐圖描述且缺乏綜合能力。因此內容大部分參考價值較小且缺乏準確性。
GPT-4V 可以辨識出醫學圖像中的標記以及文本註釋，但並不能理解其出現在圖像中的意義
GPT-4V 展現出較強的文本識別、標記識別等能力，並且會嘗試利用這些標記進行分析。但作者認為，其限制在於：其一，GPT-4V 總是會過度利用文本和標記且圖像本身成為次要參考對象；其二，它穩健性較低，常常會誤解圖像中的醫學註釋和引導。
GPT-4V 可以辨識出醫療植入器械以及它們在圖像中的位置
在大多數案例中，GPT4-V 都能正確識別到植入人體的醫療設備，並較為準確地定位它們的位置。而作者發現，甚至在一些較為困難的案例中，可能出現診斷錯誤，但判斷醫療設備識別正確的情況。
GPT-4V 面對多圖輸入時會遇到分析障礙
作者們發現，在面對同一模態的不同視角下的圖像時，GPT-4V 儘管會展現出相比於進輸入單張圖的更好的分析能力，但仍然傾向於分別對每張視圖進行單獨的分析；而在面對不同模態的圖像混合輸入時，GPT-4V 更難得出綜合了不同模態資訊的合理分析。
GPT-4V 的預測極易受到患者疾病史的引導
作者們發現是否提供患者疾病史會對 GPT-4V 的回答產生較大影響。在提供疾病史的情況下，GPT-4V 常常會將其作為關鍵點，對圖中的潛在異常做出推論；而在不提供疾病史的情況下，GPT-4V 則會更傾向於將影像作為正常案例進行分析。
GPT-4V 並不能在醫學影像中定位到解剖結構和異常
作者們認為GPT-4V 定位效果較差主要表現為：其一，GPT-4V 在定位過程中總是會得到遠離真實邊界的預測框；其二，它在對同一幅圖的多輪重複預測中表現出顯著的隨機性；其三，GPT-4V 顯示出了明顯的偏置性，例如：腦部MRI 影像中小腦一定位於底部。
GPT-4V 可以根據使用者的多輪交互，改變它的既有回答。
GPT-4V 可以在一系列的互動中修改其回應，使其正確。例如，在文中所示的例子中，作者们输入了子宫内膜异位症的 MRI 图像。 GPT-4V 最初错误地将盆腔 MRI 分类为膝关节 MRI，从而得到了一个不正确的输出。但用户通过与 GPT-4V 的多轮互动对其进行纠正，最终做出了准确的诊断。
GPT-4V 幻觉问题严重，尤其倾向将患者叙述为正常即使异常信号极为显着。
GPT-4V 总是生成出结构上看上去非常完整详实的报告，但其中的内容却并不正确，很多时候即使图像异常区域明显它仍旧会认为患者正常。
GPT-4V 在医学问答上不够稳定
GPT-4V 在常见图像和罕见图像上的表现差异巨大，在不同的身体系统方面也展现出明显的性能差别。另外，对同一医学图像的分析可能会因更改prompt 而产生不一致的结果，例如，如，GPT-4V 在“ What is the diagnosis for this brain CT?” 的prompt 下最初判断给定的图像为异常，但后来它生成了一个认为同一图像为正常的报告。这种不一致性强调了 GPT-4V 在临床诊断中的性能可能是不稳定和不可靠的。
GPT-4V 对医疗领域做了严格的安全限制
作者们发现 GPT-4V 已经在医学领域的问答中建立了防止潜在误用的安全防护措施，确保用户能够安全使用。例如，当 GPT-4V 被要求做出诊断时，"Please provide the diagnosis for this chest X-ray."，它可能会拒绝给出答案，或强调 “我不是专业医学建议的替代品”。在多数情况下，GPT-4V 会倾向于使用包含 “appears to be” 或 “could be” 之类的短语来表示不确定性。
病理案例部分
此外，作者们为了探索GPT-4V 在病理图像的报告生成和医学诊断方面的能力，对来自不同组织的20 种恶性肿瘤病理图像开展了图像块级别的测试，并得出以下结论：
GPT-4V 能够进行准确的模态识别
在所有测试案例中，GPT-4V 都可以正确地识别所有病理图像（H&E 染色的组织病理图像）的模态。
GPT-4V 能够生成结构化报告
给定一个没有任何医学提示的病理图像，GPT-4V 可以生成一个结构化且详细的报告来描述图像特征。在20 个案例中，有7 个案例能够使用如“组织结构”、“细胞特征”、“基质”、“腺体结构”、“细胞核” 等术语明确地列出了其观察结果，甚至可以正确地

以上是178頁，128個案例，GPT-4V醫療領域全面測評，離臨床應用與實際決策尚有距離的詳細內容。更多資訊請關注PHP中文網其他相關文章！