178페이지, 128개 사례, 의료 분야의 GPT-4V 종합 평가, 임상 적용 및 실질적인 의사 결정에는 아직 멀음-일체 포함-php.cn

상하이 교통대학교 & 상하이 AI 연구소는 178페이지 분량의 GPT-4V 의료 사례 리뷰를 공개하여 의료 분야에서 GPT-4V의 시각적 성능을 최초로 공개했습니다. 대규모 기본 모델을 중심으로 인공지능 개발은 최근 큰 진전을 이루었으며, 특히 OpenAI의 GPT-4의 강력한 질문과 답변, 지식 능력은 AI 분야의 유레카 순간을 빛나게 하여 광범위한 대중을 불러일으켰습니다. 우려. GPT-4V(ision)는 OpenAI의 최신 다중 모드 기본 모델입니다. GPT-4와 비교하여 이미지 및 음성 입력 기능이 추가되었습니다. 본 연구는 다중모달 의료진단 분야에서 GPT-4V(ision)의 성능을 사례 분석을 통해 평가하는 것을 목표로 한다. 총 128건(영상의학 평가 92건, 병리학 평가 20건, 위치결정 16건)을 전시하고 분석했다. 사례) 총 277개의 이미지가 포함된 GPT-4V Q&A 예시(참고: 이 기사에는 사례 표시가 포함되어 있지 않습니다. 구체적인 사례 표시 및 분석은 원본 문서를 참조하세요.)

178페이지, 128개 사례, 의료 분야의 GPT-4V 종합 평가, 임상 적용 및 실질적인 의사 결정에는 아직 멀음

GPT-4V 의료영상 평가

ArXiv 링크: https://arxiv.org/abs/2310.09909

바이두 클라우드 다운로드 주소: https://pan.baidu.com/s/11xV8MkUfmF3emJQH9awtcw?pwd=krk2

Google 드라이브 다운로드 주소: https://drive.google.com/file/d/1HPvPDwhgpOwxi2sYH3_xrcaoXjBGWhK9/view?usp=sharing

평가 기능:

이미지 형식 및 영상 위치 식별: X선, CT, MRI 식별 공명 영상, 초음파 및 병리학 영상, 영상 위치 파악.
해부학적 구조 위치 파악: 이미지에서 특정 해부학적 구조를 찾아냅니다.
비정상 감지 및 위치 파악: 종양, 골절 또는 감염과 같은 이상을 감지하고 찾습니다.
다중 영상 종합 진단: 진단을 위해 다양한 영상 방식이나 뷰의 정보를 결합합니다.
의료 보고서 작성: 비정상적인 상태 및 이와 관련된 정상적인 결과를 설명합니다.
환자 병력 통합: 영상 해석 시 환자의 기본 정보와 병력을 고려합니다.
다양한 상호작용에서 일관성과 기억력: 데이터 인식의 연속성을 유지합니다.

평가 시스템:

중추신경계
머리와 목
심장
가슴
혈액
간 및 담낭
항문직장
비뇨기과
산부인과
산부인과
유방부
근골격계 진료과
척추과
혈관과
종양학과
외상학과
소아과

영상 양식:

X-ray
컴퓨터 단층 촬영(CT)
자기 공명 MRI(영상촬영)
긍정적 전자 방출 단층 촬영(PET)
디지털 차감 혈관 조영술(DSA)
유방 조영술
초음파
병리학
테스트 케이스 선택

방사선학 Q&A 원본 논문은 Radiopaedia에서 제공되며, 이미지는 웹 페이지에서 직접 다운로드됩니다. , 포지셔닝 사례는 여러 의료 공공 세분화 데이터 세트에서 가져오고 병리학 이미지는 PathologyOutlines에서 가져옵니다. 사례를 선택할 때 저자는 다음 측면을 종합적으로 고려했습니다.

출판 날짜: GPT-4V의 교육 데이터가 매우 클 가능성이 매우 높다는 점을 고려하여 선택한 테스트 사례가 교육 세트에 나타나는 것을 피하기 위해 저자는 2023년에 발표된 최신 사례만 선택했습니다.
주석의 신뢰성: 의학적 진단 자체는 논란이 많고 모호합니다. Radiopaedia에서 제공하는 사례 완료율을 기준으로 저자는 주석이나 진단의 신뢰성을 보장하기 위해 완료율이 90% 이상인 사례를 선택하려고 합니다.
이미지 양식 다양성: 사례를 선택할 때 저자는 여러 이미지 양식에 대한 GPT-4V의 반응을 보여주기 위해 최선을 다했습니다.

이미지 처리 중에 작성자는 입력 이미지의 품질을 보장하기 위해 다음과 같은 정규화도 수행했습니다.

다중 이미지 선택: GPT-4V에서 지원하는 최대 이미지 입력 제한은 4개이지만, 관련 이미지가 4개 이상인 경우도 있다는 점을 고려하여, 우선 저자는 사례 선택 시 이러한 상황을 피하려고 노력하고, 두 번째로 , 불가피한 경우, 그러한 사례가 발생하면 저자는 Radiopaedia에서 제공하는 사례 주석을 기반으로 가장 관련성이 높은 이미지를 선택합니다.
섹션 선택: 대량의 방사선 영상 데이터가 3D(연속 다중 프레임 2차원 이미지) 형식이므로 GPT-4V에 직접 입력할 수 없으므로 완전한 3D를 대체하려면 가장 대표적인 섹션을 선택해야 합니다. 이미지를 생성하고 GPT-4V에 입력됩니다. Radiopaedia의 사례 업로드 사양에 따르면 방사선 전문의는 3D 이미지를 업로드할 때 가장 관련성이 높은 섹션을 선택하도록 요청받습니다. 저자는 이를 활용하여 3D 데이터 대신 입력을 위해 Radiopaedia에서 권장하는 축 단면을 선택했습니다.
이미지 표준화: 의료 이미지의 표준화된 디자인, 창 너비 및 창 수준 선택 저자는 Radiopaedio 케이스를 사용하여 방사선 전문의가 선택한 창 너비와 창 수준을 업로드하여 이미지를 입력했습니다. 분할된 데이터 세트의 경우 원본 논문은 [-300,300]의 창을 사용하고 0-1의 사례 수준 정규화를 수행합니다.

원본 논문의 테스트는 모두 웹 버전의 GPT-4V를 사용했습니다. 1차 Q&A에서는 사용자가 이미지를 입력한 후 여러 차례의 Q&A를 시작합니다. 상황의 상호 영향을 피하기 위해 새로운 사례마다 Q&A를 위한 새로운 Q&A 창이 생성됩니다.

178페이지, 128개 사례, 의료 분야의 GPT-4V 종합 평가, 임상 적용 및 실질적인 의사 결정에는 아직 멀음

GPT-4V Q&A 사례, 그림의 빨간색은 오류, 노란색은 불확실성, 녹색은 정확함을 나타냅니다. 색상 표시가 없는 문장은 독자가 스스로 정확성을 판단해야 합니다. . 더 많은 사례 사례 분석은 원본 논문을 참조하세요
병리학적 평가에서는 모든 이미지가 두 차례의 대화를 거칩니다.

첫 번째 라운드에서는 입력 이미지만을 기반으로 보고서를 생성할 수 있는지 묻습니다.
이 라운드의 목적은 GPT-4V가 관련 의학적 힌트를 제공하지 않고도 이미지 양식과 조직 출처를 식별할 수 있는지 평가하는 것입니다.
두 번째 라운드에서는 사용자가 올바른 조직 소스를 제공하고 GPT-4V가 병리학적 이미지와 조직 소스 정보를 기반으로 진단을 내릴 수 있는지 여부를 묻습니다. GPT-4V가 보고서를 수정하여 명확한 결과를 제공할 수 있기를 바랍니다. 진단 결과.
병리학적 이미지 사례 표시

위치 평가

타겟 인식: 이미지에 타겟이 있는지 확인합니다.
경계 상자 생성: 왼쪽 위 모서리가 (0, 0)이고 오른쪽 아래 모서리가 (w, h)인 대상에 대한 경계 상자 좌표를 생성합니다.
IOU 계산: 예측된 경계 상자와 실제 경계 상자 사이의 IOU(Intersection-over-Union 비율)를 계산합니다.
성능 제한: IOU 점수가 가장 높은 예측 경계 상자를 선택합니다.
평균 성능: 평균 경계 상자의 IOU 점수를 계산합니다.
평가의 한계
물론 원저자는 평가에서 몇 가지 단점과 한계도 언급했습니다.
정량적 평가보다는 정성적 평가만 가능
GPT-4V는 온라인 웹 인터페이스만 제공하기 때문에 테스트 사례는 수동으로만 업로드할 수 있으므로 결과적으로 원래 평가 보고서는 확장성이 제한되어 있어 정성적 평가만 제공할 수 있었습니다.
샘플 편향
선정된 샘플은 모두 온라인 홈페이지에서 가져온 것이므로 일일 외래 진료실의 데이터 분포를 반영하지 않을 수 있습니다. 특히 평가된 사례의 대부분은 이상값이므로 평가에 잠재적인 편향이 발생할 수 있습니다.
주석 또는 참조 답변이 불완전합니다.
Radiopaedia 또는 PathologyOutlines 웹사이트에서 얻은 참조 설명은 대부분 구조가 없고 표준화된 방사선학/병리학 보고 형식이 없습니다. 특히 이러한 보고서의 대부분은 사례에 대한 포괄적인 설명을 제공하기보다는 주로 이상 현상을 설명하는 데 중점을 두며 완벽한 응답에 대한 직접적인 비교 역할을 하지 않습니다.
2D 슬라이스 입력만
실제 임상 환경에서 CT, MRI 스캔을 포함한 방사선 영상은 일반적으로 3D DICOM 형식입니다. 그러나 GPT-4V는 최대 4개의 2D 이미지 입력만 지원할 수 있으므로 원본 텍스트는 평가 중에 2D 키 조각 또는 작은 조각(병리학용)만 입력할 수 있습니다.
결론적으로, 평가가 완전하지는 않더라도 원저자는 이 분석이 여전히 연구자와 의료 전문가에게 귀중한 통찰력을 제공할 수 있다고 믿습니다. 이는 다중 모드 기본 모델의 현재 기능을 보여주고 기본 모델 구축에 대한 향후 작업에 영감을 줄 수 있습니다. 의학의.
중요한 관찰
원본 평가 보고서는 평가 사례를 기반으로 관찰된 GPT-4V의 여러 성능 특성을 요약합니다.
방사선 사례 섹션
저자는 92개의 방사선 평가 사례와 20개의 위치 지정 사례를 기반으로 다음과 같은 관찰을 수행했습니다.
GPT-4V 의료 영상의 양식과 영상 위치를 식별할 수 있습니다
GPT4-V는 대부분의 영상 콘텐츠에 대한 모달 인식, 영상 부분 결정, 영상 평면 카테고리 결정과 같은 작업에 대해 우수한 처리 능력을 보여주었습니다. 예를 들어 저자들은 GPT-4V가 MRI, CT, .
GPT-4V는 정확한 진단이 거의 불가능합니다.
저자는 다음과 같은 사실을 발견했습니다. 한편으로는 OpenAI가 GPT-4V의 직접 진단을 엄격하게 제한하는 보안 메커니즘을 설정한 것으로 보입니다. 매우 명백한 진단 사례인 GPT-4V는 분석 능력이 부족하고 가능한 질병을 일련의 목록으로 나열하는 데 국한되어 있지만 더 정확한 진단을 내릴 수는 없습니다.
GPT-4V는 구조화된 보고서를 생성할 수 있지만 대부분의 내용이 올바르지 않습니다.
GPT-4V는 대부분의 경우 더 많은 표준 보고서를 생성할 수 있지만 저자는 더 유연한 콘텐츠가 포함된 필기 보고서보다 더 통합적이라고 생각합니다. 다중 모드 또는 다중 프레임 이미지를 대상으로 할 때 포괄적인 기능이 부족합니다. 따라서 대부분의 내용은 참고값이 적고 정확성이 부족합니다.
GPT-4V는 의료 영상의 마크와 텍스트 주석을 인식할 수 있지만, 이미지에 나타나는 의미를 이해할 수는 없습니다.
GPT-4V는 강력한 텍스트 인식, 마크 인식 및 기타 기능을 보여 주며 이러한 마크를 사용하려고 합니다. 분석을 위해. 그러나 저자는 GPT-4V가 항상 텍스트와 태그를 과도하게 사용하고 이미지 자체가 2차 참조 개체가 된다는 점과 둘째, 견고성이 떨어지며 이미지의 의료 정보를 잘못 해석하는 경우가 많다고 생각합니다.
GPT-4V는 영상에서 이식된 의료기기와 그 위치를 식별할 수 있습니다.
대부분의 경우 GPT4-V는 인체에 이식된 의료기기를 정확하게 식별하고 위치를 비교적 정확하게 찾을 수 있습니다. 그리고 저자들은 좀 더 어려운 경우에도 진단 오류가 발생할 수 있음을 발견했지만 의료기기는 올바르게 식별되었다고 판단했습니다.
GPT-4V는 여러 이미지 입력에 직면할 때 분석 장애에 직면하게 됩니다.
저자는 동일한 양식에서 서로 다른 관점의 이미지를 직면할 때 GPT-4V가 단일 이미지를 입력하는 것보다 더 나은 분석 기능을 보인다는 것을 발견했습니다. 서로 다른 양식의 이미지가 혼합되어 입력되는 경우 GPT-4V는 각 뷰에 대해 별도의 분석을 수행하는 경향이 있으며, 서로 다른 양식의 정보를 통합하는 합리적인 분석을 도출하기가 더 어렵습니다.
GPT-4V의 예측은 환자의 병력에 따라 쉽게 유도됩니다
저자는 환자의 병력 제공 여부가 GPT-4V의 답변에 더 큰 영향을 미친다는 사실을 발견했습니다. GPT-4V는 질병 이력이 제공되면 이를 핵심 포인트로 사용하여 이미지의 잠재적인 이상을 추론하는 경우가 많으며, 질병 이력이 제공되지 않는 경우 GPT-4V는 이미지를 핵심 포인트로 처리할 가능성이 높습니다. 정상적인 사례가 분석됩니다.
GPT-4V는 의료 영상에서 해부학적 구조와 이상을 찾을 수 없습니다.
저자는 GPT-4V의 열악한 포지셔닝 효과가 주로 다음에서 나타난다고 믿습니다. 첫째, GPT-4V는 포지셔닝 과정에서 항상 실제 경계에서 멀리 떨어진 영상을 얻습니다. 둘째, 동일한 이미지에 대한 여러 라운드의 반복 예측에서 상당한 무작위성을 보여줍니다. 셋째, GPT-4V는 명백한 편향을 보여줍니다. 예를 들어 뇌 MRI 이미지에서는 소뇌가 아래쪽에 위치해야 합니다.
GPT-4V는 여러 라운드의 사용자 상호 작용을 기반으로 기존 답변을 변경할 수 있습니다.
GPT-4V는 일련의 상호 작용에 걸쳐 응답이 정확하도록 수정할 수 있습니다.예를 들어, 기사에 표시된 예에서 저자는 자궁내막증의 MRI 이미지를 입력했습니다. GPT-4V는 처음에 골반 MRI를 무릎 MRI로 잘못 분류하여 잘못된 출력이 발생했습니다. 하지만 사용자는 GPT-4V와 여러 차례의 상호작용을 통해 이를 수정했고, 최종적으로 정확한 진단을 내렸다.
GPT-4V는 환각에 심각한 문제가 있으며, 특히 비정상적인 신호가 극도로 명백한데도 환자를 정상이라고 묘사하는 경향이 있습니다.
GPT-4V는 항상 매우 완전하고 상세한 구조로 보이는 보고서를 생성하지만 내용이 잘못된 경우가 많으므로 이미지에서 비정상적인 부분이 분명하더라도 환자를 정상으로 간주합니다.
GPT-4V는 의학적 질문에 대한 답변을 할 만큼 안정적이지 않습니다.
GPT-4V는 일반적인 이미지와 희귀한 이미지 사이에 큰 성능 차이가 있으며, 다양한 신체 시스템에서도 뚜렷한 성능 차이를 보여줍니다. 또한 동일한 의료 영상을 분석해도 프롬프트가 바뀌기 때문에 일관성이 없는 결과가 나올 수 있습니다. 예를 들어 GPT-4V는 처음에는 "이 뇌 CT의 진단은 무엇입니까?"라는 프롬프트에서 해당 영상을 비정상으로 판단했습니다. 평소와 동일한 이미지를 고려하여 신고합니다. 이러한 불일치는 임상 진단에서 GPT-4V의 성능이 불안정하고 신뢰할 수 없음을 강조합니다.
GPT-4V는 의료 분야에서 엄격한 보안 제한을 두고 있습니다
저자는 GPT-4V가 의료 분야 Q&A에서 발생할 수 있는 오용을 방지하고 사용자가 안전하게 사용할 수 있도록 안전 보호 대책을 마련했다고 밝혔습니다. 예를 들어, GPT-4V에게 "이 흉부 엑스레이에 대한 진단서를 제공해 주십시오."라고 진단을 요청하면, 답변을 거부하거나 "저는 전문적인 의학적 조언을 대신할 수 없습니다"라고 강조할 수도 있습니다. 대부분의 경우 GPT-4V는 불확실성을 표현하기 위해 "~인 것으로 보인다" 또는 "~일 수 있다"가 포함된 문구를 사용하는 것을 선호합니다.
병리학 사례 섹션
또한, 보고서 생성 및 병리학적 이미지의 의학적 진단에서 GPT-4V의 기능을 탐색하기 위해 저자는 다양한 조직의 악성 종양에 대한 20개의 병리학적 이미지에 대해 이미지 블록 수준 테스트를 수행하고 다음과 같이 결론을 내렸습니다. 결론:
GPT-4V는 정확한 양식 인식이 가능합니다.
모든 테스트 사례에서 GPT-4V는 모든 병리학 이미지(H&E 염색 조직병리학 이미지)의 양식을 정확하게 식별할 수 있습니다.
GPT-4V는 구조화된 보고서를 생성할 수 있습니다.
의학적 힌트가 없는 병리학 이미지가 주어지면 GPT-4V는 이미지 특징을 설명하는 구조화되고 상세한 보고서를 생성할 수 있습니다. 20건 중 7건에서는 "조직 구조", "세포 특성", "간질", "선 구조", "핵" 등과 같은 용어를 사용하여 관찰 내용을 명확하게, 심지어 정확하게 나열할 수 있었습니다.地