編集 | キャベツの葉
多くの臨床作業では、医療画像、ゲノミクスなどの専門的なデータの理解が必要です。この種の専門的な知識情報は、通常、一般的なマルチモーダル大規模モデルのトレーニングには存在しません...
前回の論文の説明では、Med-Gemini はさまざまな医用画像タスクで GPT-4 シリーズのモデル実装を上回りました。そた!
ここでは、Google DeepMind が Med-Gemini に関する 2 番目の論文を執筆しました。
Gemini のマルチモーダル モデルに基づいて、チームは Med-Gemini シリーズ用の複数のモデルを開発しました。これらのモデルは、Gemini のコア機能を継承しており、2D および 3D 放射線学、組織病理学、眼科、皮膚科、ゲノミクス データを微調整することで医療用途に最適化されています。
」と題されたこの研究は、2024年5月6日にarXivプレプリントプラットフォームで公開されました。
医療データソースには、バイオバンク、電子健康記録、医療画像、ウェアラブルデバイス、バイオセンサー、ゲノム配列決定などのさまざまなソースからの医療データが含まれます。これらのデータは、人口の健康と病気の複雑さをより適切に捉えるためのマルチモーダル AI ソリューションの開発を推進しています。
医療における AI は主に単一の入力と出力タイプを持つ狭いタスクに焦点を当ててきましたが、生成 AI の最近の進歩は、医療現場におけるマルチモーダル、マルチタスクの課題の解決に有望であることを示しています。
Gemini のような強力なモデルに代表されるマルチモーダルな生成 AI は、医療に革命をもたらす大きな可能性を秘めています。医学はこれらの新しいモデルを迅速に反復するためのデータソースですが、一般的なモデルは、データが高度に特殊化されているため、医療分野に適用するとパフォーマンスが低下することがよくあります。
Gemini のコア機能に基づいて、DeepMind は Med-Gemini シリーズの 3 つの新しいモデル、Med-Gemini-2D、Med-Gemini-3D、および Med-Gemini-Polygenic を発売しました。
3D データ (CT) を処理するには、Gemini ビデオ エンコーダーが使用され、時間次元が深度次元として扱われます。ゲノム データを処理するために、さまざまな形質のリスク スコアが画像内の RGB ピクセルとしてエンコードされました。
図: 個人の PRS 画像と人口統計情報を使用して冠状動脈疾患を予測する例。 (出典: 論文)
Med-Gemini-2DMed-Gemini-2D は、専門家の評価に基づいて AI ベースの胸部 X 線 (CXR) レポート生成の新しい標準を設定し、以前の 2 つの独立したデータを上回りました。このセットの結果は、絶対的な優位性が 1% と 12% で、そのうち AI の正常症例レポートは 57% と 96%、異常症例レポートは 43% と 65% でした。元の放射線科医のレポートと比較すると、品質は「同等の「」、あるいは「より優れた」。
グラフィック: 胸部 X 線分類タスクにおける Med-Gemini-2D のパフォーマンス。 (出典: 論文)
Med-Gemini-2D は、胸部 X 線分類の分散タスクにおいて、一般的な大型の Gemini 1.0 Ultra モデルよりも優れています (トレーニング中の同じデータセットの例で見られます)。ディストリビューション外のタスクの場合、パフォーマンスは異なります。
イラスト: Med-Gemini-2D 病理組織画像分類パフォーマンス。 (出典: 論文)
Med-Gemini はドメイン固有モデルに非常に近いですが、皮膚病変の分類でも同様の傾向が観察されます (ドメイン固有モデル > Med-Gemini > Gemini Ultra)。
眼科分類についても、同様の状況が再び見られます。ドメイン固有のモデルは約 200 倍のデータでトレーニングされるため、Med-Gemini は比較して非常に優れたパフォーマンスを発揮することに注意してください。
チームはまた、医療視覚的質問応答 (VQA) で Med-Gemini-2D モデルを評価しました。ここで、彼らのモデルは多くの VQA タスクで非常に強力であり、多くの場合 SOTA モデルを上回ります。 Med-Gemini-2D は、CXR 分類と放射線科 VQA で良好なパフォーマンスを示し、20 タスク中 17 タスクで SOTA またはベースラインを上回りました。
医療画像の単純な狭い解釈を超えて、著者らは胸部 X 線放射線レポート生成における Med-Gemini-2D のパフォーマンスも評価し、それが放射線科専門家の評価 SOTA に基づいて達成されていることを観察しています。
Med-Gemini-3D
Med-Gemini-3D は 2D 画像だけでなく、エンドツーエンドの CT レポートの自動生成にも使用できます。専門家の評価によると、これらの AI レポートの 53% は臨床的に許容できると考えられており、専門放射線科医からのレポートの品質を満たすには追加の研究が必要ですが、これはこのタスクを実行できる最初の生成モデルです。
Med-Gemini-Polygenic
最後に、Med-Gemini-Polygenic の健康転帰の予測は、さまざまな形質の多遺伝子リスク スコアに基づいて評価されました。このモデルは通常、既存のベースラインを上回ります。
図: Med-Gemini-Polygenic を使用した健康アウトカムの予測と、偏在および分布外のアウトカムの 2 つのベースラインとの比較。 (出典: 論文)
Med-Gemini がサポートするマルチモーダルな会話の例をいくつか示します。
病理組織学、眼科、皮膚科の画像分類において、Med-Gemini-2D は 20 タスク中 18 タスクでベースラインを上回り、タスク固有のモデルのパフォーマンスに近づきました。
結論
全体として、この研究は一般的なマルチモーダル医療人工知能モデルに関して有益な進歩を遂げましたが、明らかにまだ改善の余地がたくさんあります。多くのドメイン固有モデルは Med-Gemini よりも優れたパフォーマンスを発揮しますが、Med-Gemini はより少ないデータとより一般的な手法でも良好なパフォーマンスを発揮できます。興味深いことに、Med-Gemini は、VQA や放射線レポートの作成など、言語理解に依存するタスクでより優れたパフォーマンスを発揮するようです。
研究者らは、これらの個々の機能がすべて包括的なシステムに統合され、さまざまな複雑な学際的な臨床タスクを実行できる未来を思い描いています。 AI は人間と協力して臨床効果を最大化し、患者の転帰を改善します。
論文リンク: https://arxiv.org/abs/2405.03162
関連コンテンツ: https://twitter.com/iScienceLuvr/status/1789216212704018469
以上がマルチモーダル AI は医療の未来です。Google は 3 つの新しいモデルを発表し、Med-Gemini は大幅なアップグレードを歓迎します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。