多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 30, 2024 am 10:13 AM

Google 語言模型產業多模態AI

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

編輯 | 白菜葉

許多臨床任務需要了解專業數據，例如醫學影像、基因組學等。這類專業知識資訊在通用多模態大模型的訓練中通常不存...

在上一篇論文的描述中，Med-Gemini 在各種醫學影像任務上超越GPT-4 系列模型實現了SOTA！

在這裡，Google DeepMind 寫了第二篇關於 Med-Gemini 的論文。

在 Gemini 的多模態模型的基礎上，該團隊為 Med-Gemini 系列開發了多個模型。這些模型繼承了 Gemini 的核心功能，並透過 2D 和 3D 放射學、組織病理學、眼科、皮膚病學和基因組數據的微調，針對醫療用途進行了最佳化。

1、Med-Gemini-2D：能夠處理放射學、病理學、皮膚科、眼科影像；

2、Med-Gemini-3D：能夠處理CT 影像；

3、Med-Gemini-Polygenic：能夠處理基因組「影像」。

研究以「Advancing Multimodal Medical Capabilities of Gemini」為題，於 2024 年 5 月 6 日發佈在 arXiv 預印平台。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

醫療資料來源包括生物樣本庫、電子健康記錄、醫學影像、穿戴式裝置、生物感測器和基因組定序等不同來源的醫療資料。這些數據正在推動多模態人工智慧解決方案的發展，從而更好地捕捉人群健康和疾病的複雜性。

人工智慧在醫學領域的主要專注於具有單一輸入和輸出類型的狹窄任務，但生成人工智慧的最新進展顯示出在解決醫療環境中的多模態、多任務挑戰方面的前景。

以 Gemini 等強大模型為代表的多模態生成人工智慧擁有徹底改變醫療保健的巨大潛力。雖然醫學是這些新模型快速迭代的數據來源，但由於其高度專業化的數據，通用模型在醫學領域應用時通常表現不佳。

基於 Gemini 的核心功能，DeepMind 推出了 Med-Gemini 系列的三個新模型，Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：Med-Gemini 概述。（資料來源：論文）

來自 370 萬張醫學影像和病例的超過 700 萬個資料樣本用於訓練模型。使用各種視覺問答和影像字幕資料集，包括一些來自醫院的私人資料集。

為了處理 3D 資料 (CT)，使用了 Gemini 視訊編碼器，其中時間維度被視為深度維度。為了處理基因組數據，各種性狀的風險分數被編碼為影像中的 RGB 像素。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：使用個人的 PRS 影像和人口統計資料預測冠狀動脈疾病的範例。（資料來源：論文）

Med-Gemini-2D

Med-Gemini-2D 根據專家評估，為基於人工智慧的胸部X 光（CXR）報告生成制定了新標準，超過了先前兩個獨立資料集的最佳結果，絕對優勢為1% 和12%，其中AI 的正常病例報告為57% 和96%，異常病例報告為43% 和65%，與原始放射科醫生的報告相比質量“相當”甚至“更好”。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：Med-Gemini-2D 在胸部 X 光分類任務上的表現。（資料來源：論文）

Med-Gemini-2D 在分佈胸部 X 射線分類任務上優於通用的較大 Gemini 1.0 Ultra 模型（在訓練期間看到了來自同一資料集的範例）。對於分佈外的任務，性能各不相同。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：Med-Gemini-2D 組織病理學影像分類效能。（資料來源：論文）

在組織病理學分類任務上，Med-Gemini 的表現大多優於 Gemini Ultra，但未能超越病理學特定的基礎模型。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：PAD-UFES-20 分類任務的效能。（資料來源：論文）

在皮膚病變分類上，觀察到類似的趨勢（特定領域模型 > Med-Gemini > Gemini Ultra），儘管 Med-Gemini 與特定領域模型非常接近。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：Med-Gemini-2D、Gemini Ultra 和使用眼底影像分類附加資料進行訓練的監督模型的效能比較。（資料來源：論文）

對於眼科分類，再次看到類似的情況。請注意，特定領域模型是在約 200 倍的資料上進行訓練的，因此相較之下，Med-Gemini 的表現相當不錯。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：VOA 任務的評估詳細資訊。（資料來源：論文）

團隊也評估了醫學視覺問答（VQA）方面的 Med-Gemini-2D 模型。在這裡，他們的模型在許多 VQA 任務上都非常強大，經常擊敗 SOTA 模型。 Med-Gemini-2D 在 CXR 分類和放射學 VQA 方面表現良好，在 20 項任務中的 17 項上超過了 SOTA 或基線。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：評估詳細說明了胸部 X 光檢查報告的產生。（資料來源：論文）

除了對醫學影像的簡單狹義解釋之外，作者還評估了Med-Gemini-2D 在胸部X 射線放射學報告生成方面的表現，並觀察到它根據放射學專家的評估實現了SOTA！

Med-Gemini-3D

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

#圖示：頭部 CT 體積報告產生的人工評估結果。（資料來源：論文）

Med-Gemini-3D 不僅僅適用於 2D 影像，也應用於自動化端對端 CT 報告產生。根據專家評估，其中 53% 的 AI 報告被認為是臨床可接受的，儘管需要進行額外的研究來滿足專家放射科醫生的報告質量，但這是第一個能夠完成此任務的生成模型。

Med-Gemini-Polygenic

最後，根據各種性狀的多基因風險評分，對 Med-Gemini-Polygenic 的健康結果預測進行了評估。此模型通常優於現有基線。

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：使用 Med-Gemini-Polygenic 與分佈不均和分佈外結果的兩個基準進行比較的健康結果預測。（資料來源：論文）

以下是 Med-Gemini 支援的多模態對話的一些範例！

多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級

圖示：透過開放式問答的 2D 醫學影像對話範例。（資料來源：論文）

在組織病理學、眼科和皮膚科影像分類中，Med-Gemini-2D 在 20 項任務中的 18 項中超越了基線，並接近特定任務的模型表現。

結論

總體而言，這項工作在通用多模態醫療人工智慧模型方面取得了有益的進展，但顯然還有很大的改進空間。許多特定領域模型的表現優於 Med-Gemini，但 Med-Gemini 能夠在數據較少且更通用的方法下表現良好。有趣的是，Med-Gemini 似乎在依賴更多語言理解的任務（例如 VQA 或放射學報告產生）上表現得更好。

研究人員設想未來所有這些單項功能都整合到綜合系統中，從而執行一系列複雜的多學科臨床任務。 AI 與人類一起工作，從而最大限度地提高臨床療效並改善患者的治療結果。

論文連結：https://arxiv.org/abs/2405.03162

相關內容：https://twitter.com/iScienceLuvr/status/ 1789216212704018469

以上是多模態AI是醫學的未來，Google推出三個新模型，Med-Gemini迎來大升級的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1672

CakePHP 教程

1428

Laravel 教程

1332

PHP教程

1277

C# 教程

1257

Related knowledge

歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP，輸入手機號或郵箱註冊，完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服，提供必要信息並等待處理，最終獲得賬號註銷確認。通過本文，用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理，安全便捷地進行數字資產交易。

gate.io手機app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手機app使用教程：1、安卓用戶，訪問 Gate.io 官方網站，下載安卓安裝包，您可能需要在手機設置中允許安裝來自未知來源的應用；2、ios用戶，在 App Store 中搜索 "Gate.io" 下載。

如何優化jieba分詞以改善景區評論的關鍵詞提取效果？ Apr 01, 2025 pm 06:24 PM

如何優化jieba分詞以改善景區評論的關鍵詞提取？在使用jieba分詞處理景區評論數據時，如果發現分詞結果不理�...

虛擬幣最老的幣排行榜最新更新 Apr 22, 2025 am 07:18 AM

虛擬貨幣“最老”排行榜如下：1. 比特幣（BTC），發行於2009年1月3日，是首個去中心化數字貨幣。 2. 萊特幣（LTC），發行於2011年10月7日，被稱為“比特幣的輕量版”。 3. 瑞波幣（XRP），發行於2011年，專為跨境支付設計。 4. 狗狗幣（DOGE），發行於2013年12月6日，基於萊特幣代碼的“迷因幣”。 5. 以太坊（ETH），發行於2015年7月30日，首個支持智能合約的平台。 6. 泰達幣（USDT），發行於2014年，是首個與美元1:1錨定的穩定幣。 7. 艾達幣（ADA），發