開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布-人工智慧-PHP中文網

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

作者| 上海交通大學、上海人工智慧實驗室

編輯| ScienceAI

近日，上海交通大學與上海人工智慧實驗室聯合團隊發布3D醫學圖像分割大模型SAT（Segment Anything in radiology scans, driven by Text prompts），在3D醫學影像（CT、MR、PET）上，基於文字提示實現人體497種器官/病灶的通用分割。所有資料和程式碼、模型均已開源。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

論文連結：https://arxiv.org/abs/2312.17183

程式碼連結：https://github.com/zhaoziheng//H .com/zhaoziheng/SAT-DS/

研究背景

醫學影像分割在診斷、手術規劃和疾病監測等一系列臨床任務中都有重要作用。然而，傳統的研究針對每個特定的分割任務訓練「專用」模型，導致每個「專用」模型的應用範圍都相對有限，無法高效便捷地滿足廣泛多樣的醫療分割需求。同時，大語言模型最近在醫療領域取得了巨大成功，而要進一步推動通用醫療人工智慧的發展，建構一個可以連接語言和定位能力的醫學分割工具變得十分必要。

圖 1：SAT與現有的分割框架有本質的區別。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布為了克服這些挑戰，來自上海交通大學和上海人工智慧實驗室的研究者們提出了第一個基於知識增強，使用文字提示的3D醫療圖像通用分割模型，名為SAT（Segment Anything in radiology scans , driven by Text prompts），並做出了以下

三點主要貢獻：

1. 該研究首次探索將人體解剖學知識注入文本編碼器，以精準編碼解剖學術語，實現了通過文本提示的放射學影像通用醫療分割模型。 2. 研究建構了第一個包含6K+人體解剖學概念的多模態醫療知識圖譜。同時，建構了目前最大規模的3D醫學影像分割資料集，名為SAT-DS，匯集了72個公開資料集，來自CT、MR和PET三種模態的22K+影像，302K+分割標註，涵蓋了人體8個主要部位中的497個分割目標。

3. 基於SAT-DS，該研究訓練了兩款不同大小的模型：SAT-Pro（447M參數）和SAT-Nano（110M參數），並設計實驗從多個角度驗證了SAT的價值：SAT的性能與72個nnU-Nets專家模型相當（在每個數據集上單獨調參和優化，共約2.2B參數），並在域外數據上表現出更強的泛化能力；SAT可以作為一個基於大規模資料預訓練的基礎分割模型，透過下游微調遷移到特定任務時，可以表現出比nnU-Nets更好的效能；此外，與基於box提示的MedSAM對比，SAT基於文字提示可以實現更精準、更有效率的分割；最後，在域外的臨床數據上，研究團隊展示了SAT可以被用作大語言模型的代理工具，在報告生成等任務中直接賦予後者定位和分割的能力。

接下來將從資料、模型與實驗結果三個面向介紹原文細節。

資料建構

多模態知識圖譜：為了實現精準編碼解剖學術語，研究團隊首先收集了一個包含6K+人體解剖學概念的多模態知識圖譜，其內容來自於三個來源：

1. Unified Medical Language System（UMLS）是由美國國家醫學圖書館建構的生物醫學字典。研究團隊從中提取了近230K的生物醫學概念與定義，以及涵蓋1M+條相互關係的知識圖譜。 2. 網路上的權威解剖學知識。研究團隊篩選了6502個人解剖學概念，並藉助檢索增強的大語言模型從網絡上檢索相關信息，獲取了6K+概念與定義，涵蓋了38K+解剖結構相互關係的知識圖譜。

3. 公開的分割資料集。研究團隊收集了大規模的公開3D醫學影像分割資料集，將分割區域透過解剖學概念（類別標籤）與上述文本知識庫中的知識對應連接，提供視覺知識對照。

図 2: マルチモーダルな人体解剖学の知識グラフ。

SAT-DS: ユニバーサルセグメンテーションモデルをトレーニングするために、研究チームは、この分野で最大の 3D 医用画像セグメンテーションデータコレクションである SAT-DS を構築しました。特に、CT、MR、PET の 3 つのモダリティからの合計 22,186 の 3D 画像、302,033 のセグメンテーションアノテーション、および人体の 8 つの主要領域をカバーする 497 のセグメンテーションを含む、72 の多様なパブリックセグメンテーションデータセットが収集および整理されました。解剖学的構造または病変）。

異種データセット間の差異を最小限に抑えるために、研究チームは異なるデータセット間の方向、ボクセル間隔、グレー値、その他の画像属性を標準化し、統一された解剖学的用語システムセグメンテーションカテゴリを使用して異なるデータセットに名前を付けました。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 3: SAT-DS は、大規模かつ多様な 3D 医療画像セグメンテーションデータコレクションであり、人体の 8 つの主要領域の合計 497 のセグメンテーションカテゴリをカバーしています。

モデルアーキテクチャ

知識の注入: 解剖学的用語を正確にエンコードできるプロンプトエンコーダーを構築するために、研究チームはまず、対照学習を使用してマルチモーダル解剖学の知識をテキストエンコーダーに注入しました。

下の図aに示すように、解剖学的概念を使用してマルチモーダル知識をペアに接続し、次にビジュアルエンコーダーとテキストエンコーダーを使用して視覚知識とテキスト知識をそれぞれエンコードし、特徴をコントラストを通じて学習します。空間内のテキスト知識を使用して解剖学的構造の特徴を理解し、解剖学的構造間の関係を構築することで、解剖学的概念のより適切なエンコードを学び、視覚セグメンテーションモデルのトレーニングをガイドする手がかりとして機能します。

テキストプロンプトに基づくユニバーサルセグメンテーション:研究チームはさらに、以下の図bに示すように、テキストエンコーダー、ビジュアルエンコーダー、ビジュアルデコーダー、プロンプトデコーダーを含むテキストプロンプトに基づくユニバーサルセグメンテーションモデルフレームワークを設計しました。

その中で、同じ解剖学的構造でも異なる画像では違いがあることを考慮して、キューデコーダー（クエリデコーダー）は、ビジュアルエンコーダーが出力する画像特徴を使用して、解剖学的概念特徴、つまりセグメンテーションキューを強化します。最後に、セグメンテーションヒントとビジュアルデコーダによって出力されたピクセルレベルの特徴の間の内積が計算され、セグメンテーション予測結果が得られます。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 4: SAT の構築は、知識注入とセグメンテーショントレーニングの 2 つのステップに分かれています。

モデル評価

この研究では、SAT を 2 つの代表的な方法、つまり「特殊な」モデル nnU-Nets と対話型の一般セグメンテーションモデル MedSAM と比較します。評価には、ドメイン内データセットテスト (包括的なセグメンテーションパフォーマンス) とゼロショットドメイン外データセットテスト (センター間のデータ移行機能) の 2 つの側面が含まれます。評価結果は、データセット、データセット、データセットの 3 つのレベルから統合されます。カテゴリと人体の領域:

カテゴリ: 異なるデータセット間の同じカテゴリのセグメンテーション結果が要約され、平均化されます。
領域: カテゴリの結果に基づいて、同じ人体解剖学的領域内のカテゴリの結果が次のようになります。
データセット: 従来のセグメンテーションモデルの評価方法では、同じデータセット内のセグメンテーション結果が平均化されます。

専用モデル nnU-Nets との比較実験。 nnU-Nets のパフォーマンスを調べるため、研究では個別のデータ分析を実行しました。nnU-Nets はセット上でトレーニングされ、SAT と比較されました。

ドメイン内テストでは、すべて 72。 SAT-DS のデータセットはテストと比較に使用されます。 SAT の場合、72 のトレーニングセットの合計がトレーニングに使用され、72 のテストセットでテストされます。nnU-Net の場合、それぞれのテストセットでの 72 の nnU-Net の結果が全体として要約されます。

2. ドメイン外テストでは、72 個のデータセットがさらに分割され、49 個のデータセット (SAT-DS-Nano と名付けられました) のトレーニングセットが SAT-Nano のトレーニングとゼロショットテストに使用されました。 nnU-Net の場合、49 個の nnU-Net を使用して 10 個のドメイン外テストセットでテストが行われ、結果が要約されます。

表 1: SAT-Pro、SAT-Nano、SAT-Pro-Ft、および nnU-Nets のドメイン内テストの比較。結果は領域または病変の単位で統合されます。 H&N は頭と首、UL は上肢、LL は下肢を表します。複数の領域に出現するカテゴリは全身 (WB) として分類され、All は 497 カテゴリの平均結果を表します。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

ドメイン内テストの結果:

表 1 からわかるように、SAT-Pro はドメイン内テストで 72 nnU-Net に非常に近いパフォーマンスを示し、複数の領域で nnU-Net を上回りました。 SAT は 1 つのモデルだけで 72 のセグメンテーションタスクを完了でき、モデルサイズは nnU-Net のセットよりもはるかに小さいことに注意してください (下の図 c を参照)。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 5: SAT-Pro、SAT-Nano、nnU-Nets の包括的な比較。

微調整移行テストの結果: この研究では、SAT-Pro-Ft と呼ばれる、個別に微調整した後、各データセットで SAT-Pro をさらにテストしました。表 1 からわかるように、SAT-Pro-Ft は、SAT-Pro と比較してすべての領域でパフォーマンスが大幅に向上しており、全体的なパフォーマンスで nnU-Nets を上回っています。

ドメイン外テスト結果: 表 2 に示すように、SAT-Nano は 10 のデータセットの 20 指標のうち 19 で nnU-Nets を上回り、全体的に強力な移行機能を示しています。

表 2: SAT-Nano、nnU-Nets、および MedSAM 間のドメイン外テストの比較結果はデータセット単位で表示されます。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

インタラクティブセグメンテーションモデルMedSAMとの比較実験

この研究では、テストとSAT比較にMedSAMのパブリックチェックポイントを直接使用します。具体的な設定は次のとおりです:

1.データ比較のために、MedSAM トレーニングで使用された 32 のデータセットをさらにスクリーニングしました。

2. ドメイン外テストでは、MedSAM トレーニングで使用されていない 5 つのデータセットが比較のためにスクリーニングされました。

MedSAM の場合、2 つの異なる Box プロンプトを検討します。グラウンドトゥルースセグメンテーションを含む最小の長方形 (Oracle Box) を使用し、MedSAM (Tight) として記録され、Oracle Box に基づいてランダムオフセットを追加し、MedSAM (Loose) として記録されます。同時に、Oracle Box の効果を予測として直接テストします。 SAT の場合、nnU-Nets 比較実験のモデルは、再トレーニングせずにこれらのデータセットをテストするために直接使用されます。

ドメイン内テスト結果: 表 3 に示すように、SAT-Pro はほぼすべての領域で MedSAM より優れたパフォーマンスを示し、SAT-Pro と SAT-Nano の全体的なパフォーマンスは MedSAM よりも優れています。 SAT-Pro は病変に対して MedSAM よりも悪いパフォーマンスを示しますが、Oracle Box 自体は予測として病変に対して十分なパフォーマンスを示し、DSC では MedSAM を上回っています。これは、病変のセグメント化における MedSAM の優れたパフォーマンスは、Box によって促された強力な事前情報に由来する可能性が高いことを示しています。

表 3: SAT-Pro、SAT-Nano、および MedSAM のドメイン内テストの比較。結果は領域または病変の単位で統合されます。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

定性的比較: 図 6 は、SAT と MedSAM をさらに比較するために、視覚表示用のドメイン内テストの結果から 2 つの典型的な例を選択しています。図 6 に示すように、心筋層のセグメンテーションでは、Box プロンプトは心筋層と心筋層に包まれた心室を区別するのが難しいため、MedSAM も誤って 2 つを一緒にセグメント化しました。これは、Box プロンプトが類似していることを示しています。複雑な空間関係は曖昧になりやすく、不正確なセグメンテーションにつながります。

対照的に、テキストプロンプト (解剖学的構造の名前を直接入力) に基づく SAT は、心筋と心室を正確に区別できます。さらに、図 6 に示す腸腫瘍のセグメンテーションでわかるように、Oracle Box はすでに病変ターゲットの良好な予測結果を示していますが、MedSAM のセグメンテーション結果は、取得された Box プロンプトよりも優れているとは言えません。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 6: SAT-Pro と MedSAM (タイト) の定性的比較。このうち、MedSAM は Oracle Box をプロンプトとして使用しており、Box は青色でマークされています。最初の行は心筋のセグメンテーションの例を示し、2 番目の行は腸腫瘍のセグメンテーションの例を示します。

ドメイン外テスト結果: 表 2 に示すように、MedSAM (タイト) と比較して、SAT-Nano は 5 つのデータセットの 10 指標のうち 5 指標で MedSAM を上回りました。 MedSAM (Loose) では、すべてのインジケーターで明らかなパフォーマンスの低下があり、MedSAM がユーザーが入力したボックスプロンプトのオフセットに対してより敏感であることを示しています。

アブレーション実験

SAT を設計するとき、ビジュアルバックボーンネットワークとテキストエンコーダーは 2 つの重要な部分です。この研究では、SAT フレームワークでさまざまなビジュアルネットワーク構造またはテキストエンコーダーを使用し、その影響を調査するために一般的なアブレーション実験を試みます。

実験のコストを節約するために、アブレーション実験におけるすべての SAT モデルのトレーニングとテストは、13303 の 3D 画像、151461 のセグメンテーションアノテーション、および 429 の分割カテゴリを含む 49 のデータセットを含む SAT-DS-Nano 上で実行されます。

ビジュアルバックボーンネットワーク: SAT-Nano のフレームワークの下で、この研究では、比較のために 3 つの主流のセグメンテーションネットワーク構造、すなわち U-Net (110M パラメーター)、SwinUNETR (107M パラメーター)、および U-Mamba (114M パラメーター) を選択しました。公平に比較するために、このアブレーション実験でそれらを制御するパラメーターの量はほぼ同様です。同時に、オーバーヘッドを計算するために、ナレッジ注入のステップが省略され、MedCPT が直接使用されます (MedCPT は、PubMed 文献に基づくテキストエンコーダーであり、2 億 2,500 万のプライベートユーザークリックデータを使用してトレーニングされ、最高のパフォーマンスを達成しています)一連の医療言語タスク) として、テキストエンコーダーがヒントを生成します。 3 つの亜種は、それぞれ U-Net-CPT、SwinUNETR-CPT、および U-Mamba-CPT として示されます。

図 7 からわかるように、ビジュアルバックボーンネットワークとして U-Net と U-Mamba を使用すると、最終的なセグメンテーションパフォーマンスは比較的近くなり、U-Net は U-Mamba よりわずかに優れていますが、SwinUNETR を使用した場合のセグメンテーションパフォーマンスは高くなります。低下が大幅に改善されました。最後に、研究チームは SAT のビジュアルバックボーンネットワークとして U-Net を選択しました。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 7: 視覚バックボーンネットワークのアブレーション実験。結果は領域単位で表示されます。

テキストエンコーダ: SAT-Nano のフレームワークに基づいて、この研究では比較のために 3 つの代表的なテキストエンコーダを選択しました。上で提案された知識注入方法を使用してトレーニングされたテキストエンコーダ (Ours と表記)、最先端のテキストエンコーダ医療テキストエンコーダ MedCPT が使用され、医療データ用に微調整されていないテキストエンコーダ BERT-base が使用されます。

公平性を保つため、このアブレーション実験ではビジュアルネットワークとして一律にU-Netを使用します。 3 つの亜種は、それぞれ U-Net-Ours、U-Net-CPT、U-Net-BB と呼ばれます。図 8 に示すように、全体として、MedCPT を使用すると、BERT ベースを使用した場合と比較してセグメンテーションパフォーマンスがわずかに向上しました。これは、ドメイン知識が適切なセグメンテーションのヒントを提供するのに役立つことを示していますが、この研究で提案されたテキストエンコーダを使用した場合、最高のパフォーマンスが得られました。すべてのカテゴリで達成されており、マルチモーダルな人体解剖学の知識ベースの構築と知識の注入がセグメンテーションモデルに非常に役立つことを示しています。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 8: テキストエンコーダーでのアブレーション実験。結果は領域単位で表示されます。 BB は BERT ベースを識別します。

ロングテール分布は、セグメント化されたデータセットの明らかな特徴です。図9aおよびbに示すように、研究チームはアブレーション実験に使用されたSAT-DS-Nanoの429カテゴリのアノテーション数の分布を調査しました。アノテーションの数が最も多い 10 カテゴリ (上位 2.33%) を先頭クラスとして定義し、アノテーションの数が最も少ない 150 カテゴリ (下位 34.97%) を末尾クラスとして定義すると、末尾クラスのアノテーションは、アノテーションの総数の 3.25 % のみを占めます。

この研究では、ロングテール分布におけるさまざまなカテゴリのセグメンテーション結果に対するテキストエンコーダーの影響をさらに調査しています。図9cに示すように、研究チームが提案したエンコーダは、ヘッド、テール、ミドルカテゴリーで最高のパフォーマンスを達成し、テールカテゴリーの改善はヘッドカテゴリーよりも明らかでした。同時に、MedCPT はヘッドクラスでは BERT ベースよりもわずかに低いパフォーマンスを示しますが、テールクラスではより優れたパフォーマンスを示します。これらの結果は、ドメイン知識、特にマルチモーダルな人体解剖学の知識の注入が、ロングテールカテゴリのセグメント化に非常に役立つことを示しています。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 9: セグメンテーションタスクにおけるロングテールカテゴリに対する知識注入の影響。図 a と b は、SAT-DS-Nano の 429 カテゴリのアノテーション数の分布を示しています。図 c は、先頭、末尾、中間のカテゴリで異なるテキストエンコーダを使用した SAT-Nano のパフォーマンスを示しています。

大規模言語モデルとの組み合わせ

SAT はテキストプロンプトに基づいてセグメント化できるため、大規模言語モデルのプロキシツールとして直接使用して、セグメンテーション機能を提供できます。応用シナリオを実証するために、研究チームは 4 つの多様な実際の臨床データを選択し、GPT4 を使用してレポートからセグメンテーションターゲットを抽出し、ゼロショットセグメンテーションのために SAT を呼び出しました。その結果を図 10 に示します。

ご覧のとおり、GPT-4 はレポート内の重要な解剖学的構造を非常に適切に検出し、SAT を呼び出して、データを微調整することなく実際の臨床画像上でこれらを非常に適切にセグメント化します。

開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布

図 10: 実際の臨床画像上で、GPT4 を使用してレポートから重要な解剖学的構造を抽出し、SAT セグメンテーションを呼び出した結果。

研究価値

テキストプロンプトに基づいた 3D 医療画像の初の大規模一般セグメンテーションモデルとして、SAT の価値は多くの側面に反映されています。

SAT は効率的で柔軟なユニバーサルセグメンテーションを構築します。SAT-Pro は 1 つのモデルのみを使用し、広範囲のセグメンテーションタスクで 72 nnU-Net と同等のパフォーマンスを示し、モデルパラメーターの量が少なくなります。これは、一連の特殊なモデルの構成、トレーニング、展開を必要とする従来の医療セグメンテーション手法と比較して、一般的なセグメンテーションモデルとしての SAT-Pro がより柔軟で効率的なソリューションであることを示しています。同時に、研究チームは、SAT-Pro が地域外のデータに対してより優れた汎化パフォーマンスを備え、センターを越えた移行などの臨床ニーズをより適切に満たせることも証明しました。
SAT は、大規模なセグメンテーションデータの事前トレーニングに基づいた基本モデルです。SAT-Pro が大規模なセグメンテーションデータセットでトレーニングされた後、細かい処理を通じて特定のデータセットに転送されると、パフォーマンスが大幅に向上します。チューニングが施されており、nnU-Nets よりも全体的にパフォーマンスが優れています。これは、SAT が、微調整された転送を通じて特定のタスクのパフォーマンスを向上させ、それによって汎用セグメンテーションと特殊なセグメンテーションの臨床ニーズのバランスをとることができる強力な基本セグメンテーションモデルとみなすことができることを示しています。
SAT は、テキストプロンプトに基づいて正確かつ堅牢なセグメンテーションを実現します。Box プロンプトに基づくインタラクティブセグメンテーションモデルと比較して、テキストプロンプトに基づく SAT は、より正確でプロンプトに強いセグメンテーション結果を達成でき、ユーザーを節約できます。ボックスの描画にかかる時間を短縮し、自動でバッチ対応のユニバーサルセグメンテーションを実現します。
SAT は、大規模な言語モデルのプロキシツールとして使用できます。研究チームは、SAT が大規模な言語モデルとシームレスに接続できることを実際の臨床データで実証しました。テキストをブリッジとして使用して、任意の言語モデルにセグメンテーションおよび位置決め機能を直接提供します。大規模な言語モデル。これは、ジェネラリスト医療人工知能の開発をさらに促進する上で非常に価値があります。
セグメンテーションに対するモデルサイズの影響: この研究では、サイズの異なる 2 つのモデル、SAT-Nano と SAT-Pro をトレーニングすることにより、ドメイン内テストで SAT-Pro が SAT-Nano と比較して大幅に向上していることが観察されました。。これは、大規模なデータセットで一般的なセグメンテーションモデルをトレーニングする場合にもスケーリング則が適用されることを意味します。
セグメンテーションに対するドメイン知識の影響: 研究チームは、初のマルチモーダル人体解剖学の知識ベースを提案し、知識強化を使用して一般的なセグメンテーションモデル、特にロングテールカテゴリのセグメンテーションのパフォーマンスを向上させることを検討しました。セグメンテーションアノテーション、特にロングテールカテゴリに関するアノテーションが比較的少ないことを考慮すると、この探索は一般的なセグメンテーションモデルを構築する上で非常に重要です。

この記事の著者は、Zhao Ziheng、Zhang Yao、Wu Chaoyi、Zhang Xiaoman、Zhang Ya教授、Wang Yanfeng教授、Xie Weidi教授です。

以上是開源3D醫學大模型SAT，支援497類器官，效能超越72個nnU-Nets，上交大團隊發布的詳細內容。更多資訊請關注PHP中文網其他相關文章！