178페이지! 의료분야 최초의 GPT-4V(ision) 종합사례평가: 임상적용 및 실질적인 의사결정에는 아직 거리가 있음-일체 포함-php.cn

Shanghai Jiao Tong University & Shanghai AI Lab은 178페이지 분량의 GPT-4V 의료 사례 평가서를 공개하여 최초로 의료 분야에서 GPT-4V의 시각적 성능을 종합적으로 공개했습니다. ArXiv 링크: https://arxiv.org/abs /2310.09909 기타 논문 다운로드 주소: Baidu Cloud: https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2Google Drive: https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharingResearch 소개 대규모 기본 모델을 중심으로 인공 지능 최근 지능 개발이 큰 진전을 이루었으며 특히 OpenAI의 GPT-4는 질문과 답변 및 지식에 대한 강력한 기능으로 AI 분야의 유레카 순간을 밝히고 관심을 끌었습니다. 폭넓은 대중의 관심. GPT-4V(ision)은 OpenAI의 최신 멀티모달 기본 모델입니다. GPT-4와 비교하여 이미지 및 음성 입력 기능이 추가되었습니다. 본 연구에서는 사례 분석을 통해 다중모달 의료 진단 분야에서 GPT-4V(ision)의 성능을 평가하는 것을 목표로 한다. 총 128건(영상의학 평가 92건, 병리학 평가 20건, 위치결정 16건)을 전시하고 분석했다. 사례) 각 사례에 총 277개의 이미지가 포함된 GPT-4V 질문 및 답변 예시(참고: 이 기사에는 사례 표시가 포함되지 않습니다. 구체적인 사례 표시 및 분석은 원본 문서를 참조하세요.) 요약하자면, 원저자는 GPT-4V의 다음 기능을 체계적으로 평가하기를 희망합니다. GPT-4V가 의료 영상의 양식과 영상 위치를 인식할 수 있습니까? 다양한 양식(X선, CT, MRI, 초음파, 병리학 등)을 인식하고 이러한 이미지에서 영상 위치를 식별하는 것은 보다 복잡한 진단의 기초입니다. GPT-4V는 의료 영상에서 다양한 해부학적 구조를 국소화할 수 있나요? 이미지에서 특정 해부학적 구조를 정확히 찾아내는 것은 이상을 식별하고 잠재적인 문제를 올바르게 해결하는 데 중요합니다. GPT-4V는 의료 영상에서 이상 징후를 찾아낼 수 있나요? 종양, 골절, 감염 등의 이상 징후를 검출하는 것은 의료영상 분석의 주요 목표입니다. 임상 환경에서 신뢰할 수 있는 AI 모델은 이러한 이상 징후를 감지할 뿐만 아니라 이를 정확히 찾아내어 표적 개입이나 치료를 수행할 수 있어야 합니다. GPT-4V는 진단을 위해 여러 이미지를 결합할 수 있나요? 의학적 진단에서는 전반적인 관찰을 위해 다양한 영상 기법이나 관점의 정보를 통합해야 하는 경우가 많습니다. 따라서 여러 이미지의 정보를 결합하고 분석하는 GPT-4V의 기능을 탐색하는 것이 중요합니다. GPT-4V는 비정상적인 상태 및 관련 정상 소견을 설명하는 의료 보고서를 작성할 수 있습니까? 방사선 전문의와 병리학자에게 보고서 작성은 시간이 많이 걸리는 작업입니다. GPT-4V가 이 프로세스에 도움이 되어 정확하고 임상적으로 관련된 보고서를 생성한다면 의심할 여지 없이 전체 작업 흐름의 효율성이 높아질 것입니다. GPT-4V는 의료 영상 해석 시 환자 이력을 통합할 수 있나요? 기본 환자 정보와 과거 병력은 현재 의료 영상의 해석에 큰 영향을 미칠 수 있습니다. 모델 예측 과정에서 이미지를 분석하기 위해 이 정보를 고려할 수 있다면 분석은 더욱 개인화되고 정확해질 것입니다. GPT-4V는 여러 라운드의 상호 작용에서 일관성과 메모리를 유지할 수 있습니까? 일부 의료 시나리오에서는 단일 분석 라운드만으로는 충분하지 않을 수 있습니다. 특히 복잡한 의료 환경에서 긴 대화나 분석 중에는 데이터에 대한 지식의 연속성을 유지하는 것이 중요합니다. 원본 논문의 평가에서는 중추신경계, 머리와 목, 심장, 가슴과 복부, 머리와 목, 심장, 가슴, 혈액, 간담도, 위장, 비뇨기과, 산부인과, 산부인과, 유방, 항문 등 17개 의료 시스템을 다루었습니다. 복부, 부인과, 산부인과, 유방, 근골격계, 척추, 혈관, 종양학, 외상 및 소아과 영상은 엑스레이, 컴퓨터 단층촬영(CT), 자기공명영상(MRI)을 포함하여 일상적인 임상에서 사용되는 8가지 양식에서 나옵니다. , 양전자방출단층촬영(PET), 디지털 감산 혈관조영술(DSA), 유방 조영술, 초음파 및 병리학.

178페이지! 의료분야 최초의 GPT-4V(ision) 종합사례평가: 임상적용 및 실질적인 의사결정에는 아직 거리가 있음

17개 의료 시스템과 8개 영상 기법의 도식

논문에서는 GPT-4V가 의료 영상 기법과 해부학적 구조를 구별하는 데는 탁월한 성능을 발휘하지만 여전히 질병 진단 및 포괄적인 보고서 생성에 큰 어려움을 겪고 있다고 지적합니다. . 이러한 연구 결과는 대규모 다중 모드 모델이 컴퓨터 비전 및 자연어 처리 분야에서 상당한 진전을 이루었지만 실제 의료 응용 및 임상 의사 결정을 지원하기에는 여전히 불충분함을 보여줍니다.

테스트 사례 선택

원본 논문의 방사선학 Q&A는 [Radiopaedia](https://radiopaedia.org/)에서 가져왔고, 이미지는 웹페이지에서 직접 다운로드되었으며, 포지셔닝 사례는 여러 의료 공개에서 가져왔습니다. 분할 데이터 세트 및 병리학적 이미지는 [PathologyOutlines](https://www.pathologyoutlines.com/)에서 검색됩니다. 저자는 사례를 선정할 때 다음 사항을 종합적으로 고려했습니다.

게시 시간: GPT-4V의 훈련 세트에 선택된 테스트 사례가 나타나는 것을 피하기 위해 저자는 2023년에 출시된 최신 사례만 선택했습니다.
주석 신뢰도: Radiopaedia에서 제공하는 사례 완료도에 따라 저자는 주석이나 진단의 신뢰성을 보장하기 위해 완료도가 90% 이상인 사례를 선택하려고 합니다.
영상 양식 다양성: 사례를 선택할 때 저자는 여러 영상 양식에 대한 GPT-4V의 반응을 최대한 보여주려고 노력했습니다.

이미지 처리 측면에서 저자는 입력 이미지의 품질을 보장하기 위해 다음과 같은 표준화도 수행했습니다.

다중 이미지 선택: GPT-4V는 최대 4개의 이미지 입력을 지원하지만 경우에 따라 4개 이상의 관련 이미지가 있을 수 있습니다. 저자는 가능한 한 이러한 상황을 피하려고 노력하고, 발생하는 경우 Radiopaedia의 사례 노트를 기반으로 가장 관련성이 높은 이미지를 선택합니다.
섹션 선택: 대량의 방사선 영상 데이터가 3D 형식이므로 GPT-4V에 직접 입력할 수 없습니다. 저자는 전체 3D 이미지 대신 입력을 위해 Radiopaedia에서 권장하는 축 단면을 활용했습니다.
이미지 표준화: 의료 이미지 표준화에는 창 너비 및 창 수준 선택이 포함됩니다. 저자는 Radiopaedia 사례 업로드 시 방사선 전문의가 선택한 창 너비와 수준을 사용하여 이미지를 입력했습니다. 분할 데이터 세트의 경우 원본 논문은 [-300, 300] 창을 사용하고 0-1의 사례 수준 정규화를 수행합니다.

원본 논문은 GPT-4V(https://chat.openai.com/)의 [웹 버전]을 사용하여 테스트되었습니다. 1차 Q&A에서는 사용자들이 이미지를 입력한 후 여러 차례의 Q&A가 시작됩니다. 상황의 상호 영향을 피하기 위해 새로운 사례마다 Q&A를 위한 새로운 Q&A 창이 생성됩니다.

178페이지! 의료분야 최초의 GPT-4V(ision) 종합사례평가: 임상적용 및 실질적인 의사결정에는 아직 거리가 있음

GPT-4V Q&A 예시

그림의 빨간색은 오류, 노란색은 불확실함, 녹색은 정확함을 나타냅니다. 참고문헌의 색상은 해당 판단의 근거를 나타냅니다. 색칠되지 않은 문장은 독자가 스스로 정확성을 판단해야 합니다. 더 많은 사례 및 사례분석을 원하시면 원문을 참고하시기 바랍니다.

병리학적 평가

모든 이미지는 두 차례의 대화를 거칩니다.

1라운드

입력 이미지만을 기반으로 보고서를 생성할 수 있는지 물어보세요.
목적: GPT-4V가 관련 의학적 힌트를 제공하지 않고 영상 양식과 조직 기원을 식별할 수 있는지 평가합니다.

2차

사용자는 올바른 조직 소스를 제공하고 GPT-4V가 병리학적 이미지와 조직 소스 정보를 기반으로 진단을 내릴 수 있는지 묻습니다.
GPT-4V에서 보고서를 수정하여 명확한 진단을 내리기를 바랍니다.

178페이지! 의료분야 최초의 GPT-4V(ision) 종합사례평가: 임상적용 및 실질적인 의사결정에는 아직 거리가 있음

병리학적 이미지의 사례 표시, 더 많은 사례 및 사례 분석은 원본 논문을 참조하세요.

위치 평가에서 원본 논문은 단계별 접근 방식을 채택했습니다.

먼저 GPT-4V 여부를 테스트합니다. 제공된 이미지에서 대상을 식별할 수 있습니다. 단일 위치 파악 작업의 존재는 여러 번 반복적으로 평가되어 최소 4개의 예측 경계 상자를 얻고 해당 IOU 점수를 계산한 다음 상한 성능을 증명하기 위해 가장 높은 것을 선택합니다. 평균 경계 상자가 도출되고 IOU 점수가 계산되어 평균 성능을 입증합니다.
평가의 한계
물론 원저자는 평가에서 몇 가지 단점과 한계도 언급했습니다.
정량적 평가가 아닌 정성적 평가만

GPT-4V는 온라인 웹 인터페이스만 제공하기 때문에 테스트 사례를 수동으로 업로드하면 원본 평가 보고서의 확장성이 제한되어 정성적 평가만 제공됩니다.

샘플 편향

선정된 샘플은 모두 온라인 홈페이지에서 가져온 것이므로 일일 외래 진료실의 데이터 분포를 반영하지 않을 수 있습니다. 특히, 평가된 사례의 대부분은 이상값이므로 평가에 잠재적인 편향이 발생할 수 있습니다.

주석 또는 참조 답변이 불완전합니다.

Radiopaedia 또는 PathologyOutlines 웹사이트에서 얻은 참조 설명은 대부분 구조가 없고 표준화된 방사선학/병리학 보고서 형식이 없습니다. 특히 이러한 보고서의 대부분은 사례에 대한 포괄적인 설명을 제공하기보다는 주로 이상 현상을 설명하는 데 중점을 두며 완벽한 응답에 대한 직접적인 비교 역할을 하지 않습니다.

2D 슬라이스 입력만

실제 임상 환경에서 CT, MRI 스캔을 포함한 방사선 영상은 일반적으로 3D DICOM 형식입니다. 그러나 GPT-4V는 최대 4개의 2D 이미지 입력만 지원할 수 있으므로 원본 텍스트는 평가 중에 2D 키 조각 또는 작은 조각(병리학용)만 입력할 수 있습니다.

요약하자면, 평가가 완전하지는 않을 수 있지만 원저자는 이 분석이 연구원과 의료 전문가에게 귀중한 통찰력을 제공하여 다중 모드 기본 모델의 현재 기능을 드러내고 잠재적으로 의학의 기본 모델을 구축하는 미래 작업에 영감을 줄 수 있다고 믿습니다.

중요한 관찰

원본 평가 보고서는 평가 사례를 기반으로 GPT-4V에서 관찰된 여러 성능 특성을 요약했습니다.

방사선 사례 부분

저자는 92개의 방사선 평가 사례와 20개의 위치 결정 사례를 바탕으로 다음과 같이 결론을 내렸습니다. 관찰:

GPT-4V は医療画像のモダリティと撮像位置を識別できます

GPT4-V は、画像内容のモーダル認識、撮像部位の決定、画像面のカテゴリの決定能力など、ほとんどのタスクに対して良好な処理を示しています。たとえば、著者らは、GPT-4V は MRI、CT、およびなどのさまざまなモダリティを簡単に区別できると指摘しました。

GPT-4V が正確な診断を行うことはほとんど不可能です

著者らは次のことを発見しました。一方で、OpenAI は GPT-4V が直接診断を行うことを厳しく制限するセキュリティメカニズムを設定しているようです。、非常に明らかな場合を除いて、診断の場合、GPT-4V の分析能力は低く、一連の可能性のある疾患を列挙することに限定されていますが、より正確な診断を与えることはできません。

GPT-4V は構造化されたレポートを生成できますが、内容のほとんどが不正確です

GPT-4V はほとんどの場合、より標準的なレポートを生成できますが、作成者は、統合と比較して、より高度で柔軟な内容の手書きレポートであると考えていますマルチモーダル画像またはマルチフレーム画像を対象とする場合、画像ごとの説明が多くなり、包括的な機能が不足する傾向があります。したがって、参考価値が少なく、正確性に欠ける内容がほとんどです。

GPT-4V は医療画像内のマークやテキスト注釈を認識できますが、画像内でのマークやテキスト注釈の表示の意味を理解することはできません

GPT-4V は強力なテキスト認識、マーク認識、その他の機能を示しており、使用してみてください。これらのマーカーは分析用です。しかし、著者らは、その限界は次のとおりであると考えています。まず、GPT-4V は常にテキストとタグを過剰に使用し、画像自体が二次的な参照オブジェクトになってしまいます。第 2 に、GPT-4V は堅牢性が低く、画像内の医療情報を誤解することがよくあります。

GPT-4V は画像内の埋め込み型医療機器とその位置を識別できます

ほとんどの場合、GPT4-V は人体に埋め込まれた医療機器を正確に識別し、比較的正確に位置を特定できます。そして著者らは、より困難なケースの一部でも診断エラーが発生する可能性があるにもかかわらず、医療機器は正しく識別されていると判断されたことを発見しました。

GPT-4V は、複数の画像入力に直面すると分析障害に遭遇します

著者らは、同じモダリティで異なる視点からの画像に直面すると、GPT-4V が入力よりも優れたパフォーマンスを示すことを発見しました。 GPT-4V は単一の画像ですが、依然として各ビューを個別に分析する傾向があります。異なるモダリティからの画像が混合入力された場合、GPT-4V は異なるモダリティからの情報を組み合わせた画像を取得することがより困難になります。

GPT-4V の予測は患者の病歴によって簡単に導かれます

著者らは、患者の病歴が提供されるかどうかが GPT-4V の答えに大きな影響を与えることを発見しました。病歴が提供されている場合、GPT-4V は画像内の潜在的な異常について推論するためのキーポイントとして使用することが多く、病歴が提供されていない場合、GPT-4V は画像をキーポイントとして使用する可能性が高くなります。通常のケースが分析されます。

GPT-4V は医療画像内の解剖学的構造や異常を特定できません

著者らは、GPT-4V の位置決め効果が低いのは主に次の理由によると考えています: まず、GPT-4V は位置決めプロセス中に常に遠くなってしまいます。真の境界のボックス、第 2 に、同じ画像の複数ラウンドの繰り返し予測で重大なランダム性が示されます。第 3 に、GPT-4V は明らかな偏りを示します。たとえば、脳は最下位にあるはずです。

GPT-4V は、複数回のユーザーインタラクションに基づいて既存の回答を変更できます。

GPT-4V は、一連の相互作用にわたって正しくなるように応答を変更できます。たとえば、記事に示されている例では、著者は子宮内膜症の MRI 画像を入力します。 GPT-4V は当初、骨盤 MRI を膝 MRI として誤分類し、不正確な出力をもたらしました。しかし、ユーザーは GPT-4V との複数回の対話を通じてそれを修正し、最終的に正確な診断を下しました。

GPT-4V 幻覚は深刻な問題であり、異常な信号が非常に明らかであっても、患者は正常であると説明される傾向があります。

GPT-4V は、構造的には非常に完全かつ詳細に見えるレポートを常に生成しますが、多くの場合、画像内の異常領域が明らかであっても、その内容は依然として患者を正常であるとみなします。

GPT-4V は医療質疑応答には十分安定していません

GPT-4V は、一般的な画像とまれな画像でパフォーマンスに大きな違いがあり、また、異なる身体システムでは明らかなパフォーマンスの違いも示します。さらに、同じ医用画像の分析では、プロンプトが変化するため、一貫性のない結果が生じる可能性があります。たとえば、GPT-4V は、「この脳 CT の診断は何ですか?」というプロンプトの下で、特定の画像を異常であると判断します。通常と同じ画像を考慮してレポートします。この矛盾は、臨床診断における GPT-4V のパフォーマンスが不安定で信頼性が低い可能性があることを浮き彫りにしています。

GPT-4V には医療分野での厳しいセキュリティ制限があります

著者らは、GPT-4V が医療分野での Q&A での潜在的な誤用を防ぐための安全保護措置を確立し、ユーザーが安全に使用できることを確認しました。たとえば、GPT-4Vは「この胸部X線写真の診断を教えてください」と診断を求められた場合、回答を拒否したり、「私は専門的な医学的アドバイスの代わりではありません。」と強調したりすることがあります。」ほとんどの場合、GPT-4V は不確実性を表現するために「〜であると思われる」または「〜である可能性がある」を含むフレーズを使用する傾向があります。
病理学ケースセクション

さらに、病理画像のレポート生成と医療診断における GPT-4V の機能を調査するために、著者らは、さまざまな組織からの悪性腫瘍の 20 枚の病理画像に対して画像ブロックレベルのテストを実施し、次の結論を下しました。以下の結論: