편집 | 양배추잎
많은 임상 업무에는 의료 영상, 유전체학 등 전문적인 데이터에 대한 이해가 필요합니다. 이런 전문적인 지식 정보는 일반 멀티모달 대형 모델의 트레이닝에는 보통 존재하지 않습니다...
이전 논문의 설명에서 Med-Gemini는 다양한 의료 영상 작업에서 GPT-4 시리즈 모델 구현을 능가했습니다. 소타!
여기 Google DeepMind가 Med-Gemini에 대한 두 번째 논문을 작성했습니다.
팀은 Gemini의 다중 모드 모델을 기반으로 Med-Gemini 시리즈를 위한 여러 모델을 개발했습니다. 이러한 모델은 Gemini의 핵심 기능을 계승하고 2D 및 3D 방사선학, 조직병리학, 안과, 피부과 및 유전체학 데이터를 미세 조정하여 의료용으로 최적화되었습니다.
"Advancing Multimodal Medical Capabilis of Gemini"라는 제목의 이 연구는 2024년 5월 6일 arXiv 사전 인쇄 플랫폼에 게시되었습니다.
의료 데이터 소스에는 바이오뱅크, 전자 건강 기록, 의료 영상, 웨어러블 기기, 바이오센서, 게놈 시퀀싱 등 다양한 소스의 의료 데이터가 포함됩니다. 이러한 데이터는 인구 건강과 질병의 복잡성을 더 잘 포착하기 위한 다중 모드 AI 솔루션의 개발을 주도하고 있습니다.
의학 AI는 주로 단일 입력 및 출력 유형을 사용하는 좁은 작업에 중점을 두었지만 최근 생성 AI의 발전은 의료 환경에서 다중 모드, 다중 작업 문제를 해결하는 데 도움이 됨을 보여줍니다.
Gemini와 같은 강력한 모델로 대표되는 다중 모드 생성 AI는 의료에 혁명을 일으킬 큰 잠재력을 가지고 있습니다. 의학은 이러한 새로운 모델의 신속한 반복을 위한 데이터 소스인 반면, 일반 모델은 고도로 전문화된 데이터로 인해 의료 영역에 적용될 때 제대로 작동하지 않는 경우가 많습니다.
DeepMind는 Gemini의 핵심 기능을 기반으로 Med-Gemini 시리즈의 세 가지 새로운 모델인 Med-Gemini-2D, Med-Gemini-3D 및 Med-Gemini-Polygenic을 출시했습니다.
370만 개의 의료 이미지 및 사례에서 얻은 700만 개가 넘는 데이터 샘플을 사용하여 모델을 훈련했습니다. 병원의 일부 개인 데이터 세트를 포함하여 다양한 시각적 질문 답변 및 이미지 캡션 데이터 세트가 사용됩니다.
3D 데이터(CT)를 처리하려면 시간 차원이 깊이 차원으로 처리되는 Gemini 비디오 인코더가 사용됩니다. 게놈 데이터를 처리하기 위해 다양한 특성에 대한 위험 점수가 이미지의 RGB 픽셀로 인코딩되었습니다.
Med-Gemini-2D
Med-Gemini-2D는 전문가 평가를 기반으로 AI 기반 흉부 엑스레이(CXR) 보고서 생성의 새로운 표준을 제시하며 이전의 두 가지 독립적 데이터를 능가합니다. 절대우위가 1%와 12%인 세트의 결과, 그 중 AI의 정상 증례 보고는 57%와 96%, 비정상 증례 보고는 43%와 65%로 원본 방사선 전문의의 보고와 비교하면 품질이 좋다”고 말했다. 비교할 수 있는" " 또는 심지어 "더 나은".
그래픽: 흉부 X선 분류 작업에 대한 Med-Gemini-2D 성능. (출처: 논문)
Med-Gemini-2D는 분산 흉부 X선 분류 작업에서 일반 대형 Gemini 1.0 Ultra 모델보다 성능이 뛰어납니다(훈련 중 동일한 데이터 세트의 예에서 볼 수 있음). 배포 외부 작업의 경우 성능이 다릅니다.
조직병리학적 분류 작업에서는 Med-Gemini가 Gemini Ultra보다 대부분 성능이 뛰어났지만 병리학 관련 기본 모델보다 성능이 뛰어나지는 못했습니다.
피부 병변 분류(도메인별 모델 > Med-Gemini > Gemini Ultra)에서도 유사한 경향이 관찰되지만, Med-Gemini는 도메인별 모델에 매우 가깝습니다.
안과 분류에서도 비슷한 상황이 또 보입니다. 도메인별 모델은 ~200배 더 많은 데이터에 대해 훈련되므로 Med-Gemini는 비교해 보면 꽤 잘 수행됩니다.
팀은 VQA(Medical Visual Question Answering)에서도 Med-Gemini-2D 모델을 평가했습니다. 여기서 그들의 모델은 많은 VQA 작업에서 매우 강력하며 종종 SOTA 모델을 능가합니다. Med-Gemini-2D는 CXR 분류 및 방사선학 VQA에서 우수한 성능을 발휘하여 20개 작업 중 17개 작업에서 SOTA 또는 기준선을 초과했습니다.
의료 영상에 대한 단순하고 좁은 해석을 넘어, 저자들은 흉부 X선 방사선 보고서 생성에 대한 Med-Gemini-2D의 성능을 평가하고 방사선 전문가 평가 SOTA를 기반으로 달성하는 것을 관찰합니다!
Med-Gemini-3D
Med-Gemini-3D는 2D 이미지뿐만 아니라 자동화된 엔드 투 엔드 CT 보고서 생성에도 사용됩니다. 전문가 평가에 따르면 이러한 AI 보고서 중 53%가 임상적으로 수용 가능한 것으로 간주되었으며, 전문 방사선 전문의의 보고서 품질을 충족하려면 추가 연구가 필요하지만 이는 이 작업을 수행할 수 있는 최초의 생성 모델입니다.
Med-Gemini-Polygenic
마지막으로, Med-Gemini-Polygenic의 건강 결과 예측은 다양한 특성에 대한 다유전자 위험 점수를 기반으로 평가되었습니다. 이 모델은 일반적으로 기존 기준보다 성능이 뛰어납니다.
Illustration: Med-Gemini-Polygenic을 사용한 건강 결과 예측을 잘못된 분포 및 분포 외 결과의 두 기준선과 비교합니다. (출처: Paper)
Med-Gemini가 지원하는 다중 모달 대화의 예는 다음과 같습니다!
조직병리학, 안과, 피부과 이미지 분류에서 Med-Gemini-2D는 20개 작업 중 18개 작업에서 기준치를 넘어 작업별 모델 성능에 접근했습니다.
결론
전반적으로 이 작업은 일반적인 다중 모드 의료 인공 지능 모델에서 유용한 진전을 이루었지만 여전히 개선의 여지가 많이 있습니다. 많은 도메인별 모델이 Med-Gemini보다 성능이 뛰어나지만 Med-Gemini는 더 적은 데이터와 보다 일반적인 방법으로도 잘 수행할 수 있습니다. 흥미롭게도 Med-Gemini는 VQA 또는 방사선 보고서 생성과 같이 언어 이해에 더 의존하는 작업에서 더 나은 성능을 보이는 것으로 보입니다.
연구원들은 이러한 모든 개별 기능이 포괄적인 시스템에 통합되어 다양하고 복잡한 다학문적 임상 작업을 수행하는 미래를 상상합니다. AI는 인간과 협력하여 임상 효능을 극대화하고 환자 결과를 개선합니다.
논문 링크: https://arxiv.org/abs/2405.03162
관련 콘텐츠: https://twitter.com/iScienceLuvr/status/1789216212704018469
위 내용은 다중 모드 AI는 의학의 미래입니다. Google은 세 가지 새로운 모델을 출시하고 Med-Gemini는 대대적인 업그레이드를 환영합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!