178ページ！医療分野における初のGPT-4V（ision）の包括的な症例評価：臨床応用と実際の意思決定にはまだ距離がある-AI-php.cn

上海交通大学と上海 AI 研究所は、178 ページの GPT-4V 医療症例評価を発表し、医療分野における GPT-4V の視覚的パフォーマンスを初めて包括的に明らかにしました ArXiv リンク: https://arxiv.org/abs /2310.09909 その他の論文のダウンロードアドレス: Baidu クラウド: https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2Google ドライブ: https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharingResearchはじめに大規模な基本モデルによって駆動される人工知能最近、知能の開発は大きく進歩しており、特に OpenAI の GPT-4 の質疑応答と知識における強力な機能は、AI 分野で新たな瞬間を照らし、注目を集めています。広く世間の注目を集める。 GPT-4V(ision)はOpenAIの最新マルチモーダル基本モデルです。 GPT-4 と比較して、画像と音声の入力機能が追加されています。この研究は、症例分析を通じて集学的医療診断分野における GPT-4V(ision) のパフォーマンスを評価することを目的としており、合計 128 件 (放射線評価 92 件、病理評価 20 件、位置決め 16 件) が表示され、分析されました。ケース）GPT-4V の質問と回答の例（各ケース合計 277 枚の画像あり）（注：この記事にはケースの表示は含まれません。具体的なケースの表示と分析については元の論文を参照してください）。要約すると、原著者は GPT-4V の次の機能を系統的に評価したいと考えています: GPT-4V は医療画像のモダリティと撮像位置を認識できますか?さまざまなモダリティ (X 線、CT、MRI、超音波、病理学など) を認識し、これらの画像内の画像位置を特定することは、より複雑な診断の基礎となります。 GPT-4V は医療画像内のさまざまな解剖学的構造の位置を特定できますか?画像内の特定の解剖学的構造を正確に特定することは、異常を特定し、潜在的な問題に正しく対処するために重要です。 GPT-4V は医療画像の異常を見つけて特定できますか?腫瘍、骨折、感染症などの異常を検出することは、医療画像解析の主な目標です。臨床現場では、信頼できる AI モデルは、これらの異常を検出するだけでなく、標的を絞った介入や治療を実行できるように、異常を正確に特定する必要があります。 GPT-4V は複数の画像を組み合わせて診断できますか?医療診断では、全体的な観察のために、さまざまな画像モダリティやビューからの情報を統合する必要があることがよくあります。したがって、複数の画像からの情報を組み合わせて分析する GPT-4V の機能を調査することが重要です。 GPT-4V は、異常な状態とそれに関連する正常な所見を説明する医療レポートを作成できますか?放射線科医や病理医にとって、レポート作成は時間のかかる作業です。 GPT-4V がこのプロセスに役立ち、正確で臨床的に関連性のあるレポートを生成できれば、ワークフロー全体の効率が向上することは間違いありません。 GPT-4V は医療画像を解釈する際に患者の履歴を統合できますか?基本的な患者情報と過去の病歴は、現在の医療画像の解釈に大きな影響を与える可能性があります。モデル予測プロセス中にこの情報を考慮して画像を分析できれば、分析はよりパーソナライズされ、より正確になります。 GPT-4V は複数ラウンドの対話にわたって一貫性と記憶を維持できますか?一部の医療シナリオでは、1 回の分析では不十分な場合があります。特に複雑な医療環境において、長時間の会話や分析を行う場合、データに関する知識の継続性を維持することが重要です。元の論文の評価は、中枢神経系、頭頸部、心臓、胸腹部、頭頸部、心臓、胸部、血液、肝胆道、胃腸、泌尿器科、婦人科、産科、乳房、肛門を含む 17 の医療系を対象としました。、腹部、婦人科、産科、乳房、筋骨格、脊椎、血管、腫瘍、外傷、小児の画像は、X 線、コンピューター断層撮影 (CT)、磁気共鳴画像法 (MRI) など、日常の臨床で使用される 8 つのモダリティから取得されます。、陽電子放出断層撮影法 (PET)、デジタルサブトラクション血管造影法 (DSA)、マンモグラフィー、超音波および病理学。

178ページ！医療分野における初のGPT-4V（ision）の包括的な症例評価：臨床応用と実際の意思決定にはまだ距離がある

17の医療システムと8つの画像モダリティの概略図

この論文は、GPT-4Vは医用画像モダリティと解剖学的構造の識別ではうまく機能するものの、疾患の診断と包括的なレポートの生成においては依然として大きな課題に直面していると指摘しています。。これらの発見は、大規模なマルチモーダルモデルがコンピュータービジョンと自然言語処理において大幅な進歩を遂げたものの、現実世界の医療アプリケーションや臨床上の意思決定をサポートするにはまだ不十分であることを示しています。

テストケースの選択

元の論文の放射線学 Q&A は [Radiopaedia](https://radiopaedia.org/) からのもので、画像は Web ページから直接ダウンロードされ、位置特定ケースは複数の医療関係者からのものですセグメンテーションデータセットと病理画像は [PathologyOutlines](https://www.pathologyoutlines.com/) から取得されます。ケースを選択する際、著者は次の側面を総合的に考慮しました:

公開時間: 選択したテストケースが GPT-4V のトレーニングセットに表示されるのを避けるために、著者は 2023 年にリリースされた最新のケースのみを選択しました。
注釈の信頼性: Radiopaedia が提供する症例の完成度に従って、著者は注釈または診断の信頼性を確保するために、完成度が 90% を超える症例を選択するよう努めています。
画像モダリティの多様性: 症例を選択する際、著者は複数の画像モダリティに対する GPT-4V の応答を可能な限り示すように努めました。

画像処理に関して、作者は入力画像の品質を保証するために次の標準化も行っています:

複数の画像選択: GPT-4V は最大 4 つの画像入力をサポートしますが、場合によっては 4 つ以上の関連画像がある場合があります。著者らは、この状況を可能な限り回避しようと努めており、もし遭遇した場合には、Radiopaedia の症例ノートに基づいて最も関連性の高い画像を選択します。
セクション選択: 大量の放射線画像データは3D形式であるため、GPT-4Vに直接入力できません。著者らは、フル 3D 画像の代わりに Radiopaedia が推奨する軸断面を入力に利用しました。
画像の標準化: 医療画像の標準化には、ウィンドウ幅とウィンドウレベルの選択が含まれます。著者らは、症例を Radiopaedia にアップロードする際に放射線科医が選択したウィンドウの幅とレベルを使用して画像を入力します。分割データセットの場合、元の論文では [-300, 300] のウィンドウが使用され、0 ～ 1 のケースレベルの正規化が実行されます。

オリジナルの論文は GPT-4V の [Web バージョン] (https://chat.openai.com/) を使用してテストされました。最初のQ&Aではユーザーが画像を入力し、その後複数回のQ&Aが始まります。コンテキストの相互影響を避けるために、新しいケースごとに、Q&A 用の新しい Q&A ウィンドウが作成されます。

178ページ！医療分野における初のGPT-4V（ision）の包括的な症例評価：臨床応用と実際の意思決定にはまだ距離がある

GPT-4V Q&Aの例

写真の赤色はエラー、黄色は不確実性、緑色は正解を示します。「参考」内の色は、対応する判断の根拠を示しています。色分けされていない文は、読者が自分自身で正確さを判断する必要があります。その他の事例と事例分析については、元の論文を参照してください。

病理学的評価

すべての画像は 2 回の対話を経ます。

ラウンド 1

入力画像のみに基づいてレポートを生成できるかどうかを尋ねます。
目的: GPT-4V が関連する医学的ヒントを提供することなく画像モダリティと組織起源を識別できるかどうかを評価すること。

第 2 ラウンド

ユーザーは正しい組織ソースを提供し、病理画像とその組織ソース情報に基づいて GPT-4V が診断を行えるかどうかを尋ねます。
GPT-4V がレポートを改訂し、明確な診断を提供してくれることを願っています。

178ページ！医療分野における初のGPT-4V（ision）の包括的な症例評価：臨床応用と実際の意思決定にはまだ距離がある

病理画像の症例表示、その他の症例と症例分析については、元の論文を参照してください

位置決め評価では、元の論文では段階的なアプローチが採用されています:

GPT-4Vかどうかを最初にテストします提供された画像内のターゲットを識別できます。単一の位置特定タスクが複数回繰り返し評価されて、少なくとも 4 つの予測境界ボックスが取得され、その IOU スコアが計算され、その上限のパフォーマンスを証明するために最も高いものを選択します。平均境界ボックスが導出され、IOU スコアが計算されて平均パフォーマンスが証明されます。
評価の制限
もちろん、元の作成者は、評価のいくつかの欠点と制限についても言及しました:
定量的な評価ではなく定性的な評価のみ

GPT-4V はオンライン Web インターフェイスのみを提供するため、テストケースを手動でアップロードすると、元の評価レポートの拡張性が制限されるため、定性的な評価のみが提供されます。

サンプルの偏り

選択されたサンプルはすべてオンライン Web サイトからのものであり、毎日の外来診療におけるデータ分布を反映していない可能性があります。特に、評価されたケースのほとんどは外れ値であり、評価に潜在的なバイアスが導入される可能性があります。

メモや参照の回答が不完全です

Radiopaedia または PathologyOutlines の Web サイトから入手した参照の説明には、ほとんどの場合、構造がなく、標準化された放射線学/病理学レポートの形式がありません。特に、これらのレポートのほとんどは、症例の包括的な説明を提供するのではなく、主に異常の説明に焦点を当てており、完全な対応との直接の比較としては役立ちません。

2D スライス入力のみ

実際の臨床現場では、CT、MRI スキャンを含む放射線画像は通常 3D DICOM 形式です。ただし、GPT-4V は最大 4 つの 2D 画像の入力しかサポートできないため、元のテキストは評価中に 2D キースライスまたは小さなフラグメント (病理用) のみを入力できます。

要約すると、評価は網羅的ではないかもしれませんが、原著著者らは、この分析が研究者や医療専門家に貴重な洞察を提供し、マルチモーダルな基礎モデルの現在の機能を明らかにし、潜在的に医学の基礎モデルの構築における将来の研究にインスピレーションを与えると信じています。

重要な所見

オリジナルの評価報告書は、評価ケースに基づいて GPT-4V の観察された複数の性能特性を要約しました:

放射線ケース部分

著者らは、92 件の放射線評価ケースと 20 件の位置決めケースに基づいて次のように結論付けました所見:

GPT-4V は医療画像のモダリティと撮像位置を識別できます

GPT4-V は、画像内容のモーダル認識、撮像部位の決定、画像面のカテゴリの決定能力など、ほとんどのタスクに対して良好な処理を示しています。たとえば、著者らは、GPT-4V は MRI、CT、およびなどのさまざまなモダリティを簡単に区別できると指摘しました。

GPT-4V が正確な診断を行うことはほとんど不可能です

著者らは次のことを発見しました。一方で、OpenAI は GPT-4V が直接診断を行うことを厳しく制限するセキュリティメカニズムを設定しているようです。、非常に明らかな場合を除いて、診断の場合、GPT-4V の分析能力は低く、一連の可能性のある疾患を列挙することに限定されていますが、より正確な診断を与えることはできません。

GPT-4V は構造化されたレポートを生成できますが、内容のほとんどが不正確です

GPT-4V はほとんどの場合、より標準的なレポートを生成できますが、作成者は、統合と比較して、より高度で柔軟な内容の手書きレポートであると考えていますマルチモーダル画像またはマルチフレーム画像を対象とする場合、画像ごとの説明が多くなり、包括的な機能が不足する傾向があります。したがって、参考価値が少なく、正確性に欠ける内容がほとんどです。

GPT-4V は医療画像内のマークやテキスト注釈を認識できますが、画像内でのマークやテキスト注釈の表示の意味を理解することはできません

GPT-4V は強力なテキスト認識、マーク認識、その他の機能を示しており、使用してみてください。これらのマーカーは分析用です。しかし、著者らは、その限界は次のとおりであると考えています。まず、GPT-4V は常にテキストとタグを過剰に使用し、画像自体が二次的な参照オブジェクトになってしまいます。第 2 に、GPT-4V は堅牢性が低く、画像内の医療情報を誤解することがよくあります。

GPT-4V は画像内の埋め込み型医療機器とその位置を識別できます

ほとんどの場合、GPT4-V は人体に埋め込まれた医療機器を正確に識別し、比較的正確に位置を特定できます。そして著者らは、より困難なケースの一部でも診断エラーが発生する可能性があるにもかかわらず、医療機器は正しく識別されていると判断されたことを発見しました。

GPT-4V は、複数の画像入力に直面すると分析障害に遭遇します

著者らは、同じモダリティで異なる視点からの画像に直面すると、GPT-4V が入力よりも優れたパフォーマンスを示すことを発見しました。 GPT-4V は単一の画像ですが、依然として各ビューを個別に分析する傾向があります。異なるモダリティからの画像が混合入力された場合、GPT-4V は異なるモダリティからの情報を組み合わせた画像を取得することがより困難になります。

GPT-4V の予測は患者の病歴によって簡単に導かれます

著者らは、患者の病歴が提供されるかどうかが GPT-4V の答えに大きな影響を与えることを発見しました。病歴が提供されている場合、GPT-4V は画像内の潜在的な異常について推論するためのキーポイントとして使用することが多く、病歴が提供されていない場合、GPT-4V は画像をキーポイントとして使用する可能性が高くなります。通常のケースが分析されます。

GPT-4V は医療画像内の解剖学的構造や異常を特定できません

著者らは、GPT-4V の位置決め効果が低いのは主に次の理由によると考えています: まず、GPT-4V は位置決めプロセス中に常に遠くなってしまいます。真の境界のボックス、第 2 に、同じ画像の複数ラウンドの繰り返し予測で重大なランダム性が示されます。第 3 に、GPT-4V は明らかな偏りを示します。たとえば、脳は最下位にあるはずです。

GPT-4V は、複数回のユーザーインタラクションに基づいて既存の回答を変更できます。

GPT-4V は、一連の相互作用にわたって正しくなるように応答を変更できます。たとえば、記事に示されている例では、著者は子宮内膜症の MRI 画像を入力します。 GPT-4V は当初、骨盤 MRI を膝 MRI として誤分類し、不正確な出力をもたらしました。しかし、ユーザーは GPT-4V との複数回の対話を通じてそれを修正し、最終的に正確な診断を下しました。

GPT-4V 幻覚は深刻な問題であり、異常な信号が非常に明らかであっても、患者は正常であると説明される傾向があります。

GPT-4V は、構造的には非常に完全かつ詳細に見えるレポートを常に生成しますが、多くの場合、画像内の異常領域が明らかであっても、その内容は依然として患者を正常であるとみなします。

GPT-4V は医療質疑応答には十分安定していません

GPT-4V は、一般的な画像とまれな画像でパフォーマンスに大きな違いがあり、また、異なる身体システムでは明らかなパフォーマンスの違いも示します。さらに、同じ医療画像を分析すると、プロンプトが変わるため、一貫性のない結果が生じる可能性があります。たとえば、GPT-4V は、「この脳 CT の診断は何ですか?」というプロンプトの下で、特定の画像を異常であると判断します。通常と同じ画像を考慮してレポートします。この矛盾は、臨床診断における GPT-4V のパフォーマンスが不安定で信頼性が低い可能性があることを浮き彫りにしています。

GPT-4V には医療分野での厳しいセキュリティ制限があります

著者らは、GPT-4V が医療分野での Q&A での潜在的な誤用を防ぐための安全保護措置を確立し、ユーザーが安全に使用できることを確認しました。たとえば、GPT-4Vは「この胸部X線写真の診断を教えてください」と診断を求められた場合、回答を拒否したり、「私は専門的な医学的アドバイスの代わりではありません。」と強調したりすることがあります。」ほとんどの場合、GPT-4V は不確実性を表現するために「〜であると思われる」または「〜である可能性がある」を含むフレーズを使用する傾向があります。
病理学ケースセクション

さらに、病理画像のレポート生成と医療診断における GPT-4V の機能を調査するために、著者らは、さまざまな組織からの悪性腫瘍の 20 枚の病理画像に対して画像ブロックレベルのテストを実施し、次の結論を下しました。以下の結論: