多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级-人工智能-PHP中文网

首页

科技周边

人工智能

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 30, 2024 am 10:13 AM

谷歌语言模型产业多模态AI

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

编辑 | 白菜叶

许多临床任务需要了解专业数据，例如医学图像、基因组学等。这类专业知识信息在通用多模态大模型的训练中通常不存...

在上一篇论文的描述中，Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA！

在这里，Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。

在 Gemini 的多模态模型的基础上，该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能，并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组数据的微调，针对医疗用途进行了优化。

1、Med-Gemini-2D：能够处理放射学、病理学、皮肤科、眼科图像；

2、Med-Gemini-3D：能够处理 CT 图像；

3、Med-Gemini-Polygenic：能够处理基因组「图像」。

该研究以「Advancing Multimodal Medical Capabilities of Gemini」为题，于 2024 年 5 月 6 日发布在 arXiv 预印平台。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

医疗数据源包括生物样本库、电子健康记录、医学成像、可穿戴设备、生物传感器和基因组测序等不同来源的医疗数据。这些数据正在推动多模态人工智能解决方案的发展，从而更好地捕捉人群健康和疾病的复杂性。

人工智能在医学领域的主要专注于具有单一输入和输出类型的狭窄任务，但生成人工智能的最新进展显示出在解决医疗环境中的多模态、多任务挑战方面的前景。

以 Gemini 等强大模型为代表的多模态生成人工智能拥有彻底改变医疗保健的巨大潜力。虽然医学是这些新模型快速迭代的数据来源，但由于其高度专业化的数据，通用模型在医学领域应用时通常表现不佳。

基于 Gemini 的核心功能，DeepMind 推出了 Med-Gemini 系列的三个新模型，Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini 概述。（来源：论文）

来自 370 万张医学图像和病例的超过 700 万个数据样本用于训练模型。使用各种视觉问答和图像字幕数据集，包括一些来自医院的私人数据集。

为了处理 3D 数据 (CT)，使用了 Gemini 视频编码器，其中时间维度被视为深度维度。为了处理基因组数据，各种性状的风险评分被编码为图像中的 RGB 像素。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：使用个人的 PRS 图像和人口统计信息预测冠状动脉疾病的示例。（来源：论文）

Med-Gemini-2D

Med-Gemini-2D 根据专家评估，为基于人工智能的胸部 X 射线（CXR）报告生成制定了新标准，超过了之前两个独立数据集的最佳结果，绝对优势为 1% 和 12%，其中 AI 的正常病例报告为 57% 和 96%，异常病例报告为 43% 和 65%，与原始放射科医生的报告相比质量「相当」甚至「更好」。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini-2D 在胸部 X 射线分类任务上的性能。（来源：论文）

Med-Gemini-2D 在分布胸部 X 射线分类任务上优于通用的较大 Gemini 1.0 Ultra 模型（在训练期间看到了来自同一数据集的示例）。对于分布外的任务，性能各不相同。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini-2D 组织病理学图像分类性能。（来源：论文）

在组织病理学分类任务上，Med-Gemini 的表现大多优于 Gemini Ultra，但未能超越病理学特定的基础模型。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：PAD-UFES-20 分类任务的性能。（来源：论文）

在皮肤病变分类上，观察到类似的趋势（特定领域模型 > Med-Gemini > Gemini Ultra），尽管 Med-Gemini 与特定领域模型非常接近。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：Med-Gemini-2D、Gemini Ultra 和使用眼底图像分类附加数据进行训练的监督模型的性能比较。（来源：论文）

对于眼科分类，再次看到类似的情况。请注意，特定领域模型是在约 200 倍的数据上进行训练的，因此相比之下，Med-Gemini 的表现相当不错。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：VOA 任务的评估详细信息。（来源：论文）

该团队还评估了医学视觉问答（VQA）方面的 Med-Gemini-2D 模型。在这里，他们的模型在许多 VQA 任务上都非常强大，经常击败 SOTA 模型。Med-Gemini-2D 在 CXR 分类和放射学 VQA 方面表现良好，在 20 项任务中的 17 项上超过了 SOTA 或基线。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：评估详细说明了胸部 X 光检查报告的生成。（来源：论文）

除了对医学图像的简单狭义解释之外，作者还评估了 Med-Gemini-2D 在胸部 X 射线放射学报告生成方面的表现，并观察到它根据放射学专家的评估实现了 SOTA！

Med-Gemini-3D

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：头部 CT 体积报告生成的人工评估结果。（来源：论文）

Med-Gemini-3D 不仅仅适用于 2D 图像，还应用于自动化端到端 CT 报告生成。根据专家评估，其中 53% 的 AI 报告被认为是临床可接受的，尽管需要进行额外的研究来满足专家放射科医生的报告质量，但这是第一个能够完成此任务的生成模型。

Med-Gemini-Polygenic

最后，根据各种性状的多基因风险评分，对 Med-Gemini-Polygenic 的健康结果预测进行了评估。该模型通常优于现有基线。

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：使用 Med-Gemini-Polygenic 与分布不均和分布外结果的两个基线进行比较的健康结果预测。（来源：论文）

以下是 Med-Gemini 支持的多模态对话的一些示例！

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

图示：通过开放式问答的 2D 医学图像对话示例。（来源：论文）

在组织病理学、眼科和皮肤科图像分类中，Med-Gemini-2D 在 20 项任务中的 18 项中超越了基线，并接近特定任务的模型性能。

结语

总体而言，这项工作在通用多模态医疗人工智能模型方面取得了有益的进展，但显然还有很大的改进空间。许多特定领域模型的性能优于 Med-Gemini，但 Med-Gemini 能够在数据较少和更通用的方法下表现良好。有趣的是，Med-Gemini 在依赖更多语言理解的任务（例如 VQA 或放射学报告生成）上似乎表现得更好。

研究人员设想未来所有这些单项功能都集成到综合系统中，从而执行一系列复杂的多学科临床任务。AI 与人类一起工作，从而最大限度地提高临床疗效并改善患者的治疗结果。

论文链接：https://arxiv.org/abs/2405.03162

相关内容：https://twitter.com/iScienceLuvr/status/1789216212704018469

以上是多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1664

CakePHP 教程

1422

Laravel 教程

1316

PHP教程

1267

C# 教程

1239

显示更多

Related knowledge

加密数字资产交易APP推荐top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能着称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

欧易okex账号怎么注册、使用、注销教程 Mar 31, 2025 pm 04:21 PM

本文详细介绍了欧易OKEx账号的注册、使用和注销流程。注册需下载APP，输入手机号或邮箱注册，完成实名认证。使用方面涵盖登录、充值提现、交易以及安全设置等操作步骤。而注销账号则需要联系欧易OKEx客服，提供必要信息并等待处理，最终获得账号注销确认。通过本文，用户可以轻松掌握欧易OKEx账号的完整生命周期管理，安全便捷地进行数字资产交易。

binance怎么注册详细教程（2025新手指南） Mar 18, 2025 pm 01:57 PM

本文提供Binance币安注册及安全设置的完整指南，涵盖注册前的准备工作（包括设备、邮箱、手机号及身份证明文件准备），详细介绍了官网及APP两种注册方式，以及不同级别的身份验证（KYC）流程。此外，文章还重点讲解了如何设置资金密码、开启双重验证（2FA，包括谷歌身份验证器和短信验证）以及设置防钓鱼码等关键安全步骤，帮助用户安全便捷地注册和使用Binance币安平台进行加密货币交易。请务必在交易前了解相关法律法规及市场风险，谨慎投资。

如何优化jieba分词以改善景区评论的关键词提取效果？ Apr 01, 2025 pm 06:24 PM

如何优化jieba分词以改善景区评论的关键词提取？在使用jieba分词处理景区评论数据时，如果发现分词结果不理�...

gate.io手机app使用教程 Mar 26, 2025 pm 05:15 PM

gate.io手机app使用教程：1、安卓用户，访问 Gate.io 官方网站，下载安卓安装包，您可能需要在手机设置中允许安装来自未知来源的应用；2、ios用户，在 App Store 中搜索 "Gate.io" 下载。

虚拟币最老的币排行榜最新更新 Apr 22, 2025 am 07:18 AM

虚拟货币“最老”排行榜如下：1. 比特币（BTC），发行于2009年1月3日，是首个去中心化数字货币。2. 莱特币（LTC），发行于2011年10月7日，被称为“比特币的轻量版”。3. 瑞波币（XRP），发行于2011年，专为跨境支付设计。4. 狗狗币（DOGE），发行于2013年12月6日，基于莱特币代码的“迷因币”。5. 以太坊（ETH），发行于2015年7月30日，首个支持智能合约的平台。6. 泰达币（USDT），发行于2014年，是首个与美元1:1锚定的稳定币。7. 艾达币（ADA），发

虚拟币购买app安全靠谱的top10推荐 Mar 18, 2025 pm 12:12 PM

2025年全球虚拟币交易平台Top 10推荐，助您玩转数字货币市场！本文将为您深度解析币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家顶级平台的核心优势和特色功能。无论是追求高流动性、丰富的交易类型，还是注重安全合规、创新功能，都能在此找到适合您的平台。我们将从交易品种、安全性、特色功能等方面进行全面对比，助您选择最合适的虚拟货币交易平台，把握2025年数字货币投资机遇

okex交易平台官网登录入口 Mar 18, 2025 pm 12:42 PM

本文详细介绍了欧易OKEx网页版登录的完整步骤，包括准备工作（确保网络连接稳定及浏览器更新）、访问官网（注意网址准确性，避免钓鱼网站）、找到登录入口（点击官网首页右上角的“登录”按钮）、输入登录信息（邮箱/手机号及密码，支持验证码登录）、完成安全验证（滑动验证、谷歌验证或短信验证）等五个步骤，最终成功登录后即可进行数字资产交易等操作。安全便捷的登录流程，保障用户资产安全。

See all articles

多模态AI是医学的未来，谷歌推出三个新模型，Med-Gemini迎来大升级

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题