6월 14일 뉴스에 따르면, 마이크로소프트 연구진은 최근 생체의학 연구에 주로 사용되는 CT, 엑스레이 사진 등을 기반으로 환자의 병리학적 상태를 추론할 수 있는 LLaVA-Med 모델을 시연했다.
Microsoft 연구원들이 병원 그룹과 협력하여 다중 모드 AI 모델을 훈련하기 위해 생체 의학 이미지 텍스트에 해당하는 대규모 데이터 세트를 획득했다고 보고되었습니다. 데이터 세트에는 흉부 X선, MRI, 조직학, 병리학, CT 영상 등이 포함되며 비교적 포괄적인 범위를 포괄합니다.
▲ 이미지 출처 Microsoft
Microsoft는 "각 이미지에 대한 모든 사전 분석 정보"가 포함된 Vision Transformer 및 Vicuna 언어 모델을 기반으로 GPT-4를 사용하여 8개의 NVIDIA A100 GPU에서 LLaVA-Med를 교육했습니다.” 생체의학 영상에 대한 질문에 자연어로 답할 수 있는 어시스턴트의 비전을 충족시키기 위해 영상에 대한 질문과 답변을 생성합니다.
학습 과정에서 모델은 주로 "이러한 이미지의 내용 설명"과 "생물의학 개념 정교화(IT 하우스 노트: 사진에서 어떻게 보이는지 판단)"에 중점을 둡니다. Microsoft에 따르면 이 모델은 궁극적으로 "뛰어난 다중 모드 대화 기능"을 갖추고 있으며 "시각적 질문에 답하는 데 사용되는 세 가지 표준 생물 의학 데이터 세트에서 LLaVA-Med는 일부 지표에서 업계의 다른 고급 모델을 선도합니다."
▲ 사진 출처 Microsoft
연구팀은 다음과 같이 말했습니다. “LLaVA-Med 모델이 유용한 생물의학 비전 보조 장치를 구축하는 데 중요한 단계라고 믿지만 현재 LLaVA-Med 모델에는 여전히 특정 제한 사항이 있습니다. 단점은 대형 모델에서 흔히 발생하는 허위 사례와 낮은 정확성이다. 연구팀은 향후 해당 모델이 상용 바이오의약품에 적용될 수 있도록 모델의 품질과 신뢰성을 향상시키는 데 주력할 예정이다. 이제 모델이 오픈 소스이며 GitHub에서 관련 정보를 찾을 수 있습니다.
위 내용은 Microsoft, 의료 병리학 사례 분석을 위한 LLaVA-Med AI 모델 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!