저자 | Tian Yu
최근 몇 년 동안 특히 의료 분야에서 의료 모델의 공정성은 부정적인 측면을 갖고 있기 때문에 점점 더 많은 관심을 받고 있습니다. 사람들의 건강과 삶에 영향을 미칩니다. 공평한 학습 연구를 발전시키려면 고품질의 의료 형평성 데이터 세트가 필요합니다.
기존 의료 공정성 데이터 세트는 모두 분류 작업을 목표로 하며 의료 세분화에 사용할 수 있는 공정성 데이터 세트가 없습니다. 그러나 의료 세분화는 분류와 마찬가지로 매우 중요한 의료 AI 작업입니다. 임상의가 평가할 장기 이상에 대한 자세한 공간 정보를 제공합니다.
최근 연구에서 하버드 대학교의 Harvard-Ophalmology-AI-Lab 팀은 10,000명의 환자 샘플이 포함된 Harvard-FairSeg라는 최초의 의료 세분화를 위한 공정성 데이터 세트를 제안했습니다. 또한 최신 Segment Anything Model(SAM)을 사용하여 각 ID 그룹의 상한 오류를 기반으로 손실 함수의 가중치를 재조정함으로써 공정한 오류 경계 스케일링 방법을 제안합니다.
공정한 비교를 용이하게 하기 위해 팀에서는 자산 규모 세분화 성과라는 세분화 작업의 공정성을 평가하기 위한 새로운 기준을 활용했습니다. 포괄적인 실험을 통해 연구원들은 그들의 접근 방식이 최첨단 공정성 학습 모델에 비해 공정성 성능이 우수하거나 유사하다는 것을 보여줍니다.
여기서 Harvard University의 연구원들이 ICLR 2024 최종 초안 작업 "Harvard FairSeg: Fair Error-Bound Scaling을 갖춘 Segment Anything 모델을 사용하여 공정성 학습을 위한 대규모 의료 이미지 분할 데이터 세트"를 공유합니다. ㅋㅋㅋ
데이터세트 웹사이트:Harvard-Ophalmology-AI-Lab은 고품질 공정성 데이터세트를 제공하기 위해 최선을 다하고 있으며, 더 많은 데이터세트에는 세 가지 안과 질환에 대한 공정성 분류 작업이 포함되어 있습니다. 하버드-안과-AI-Lab의 데이터세트 웹페이지:
https://ophai.hms.harvard.edu/datasets/Background
의료 영상 진단에 인공 지능의 적용이 증가함에 따라 이러한 딥 러닝 모델의 공정성을 보장하고 복잡한 실제 상황에서 발생할 수 있는 숨겨진 편견을 조사하는 것이 중요합니다. 불행하게도 기계 학습 모델에는 의료 이미지(인종, 성별 등)와 관련된 민감한 속성이 실수로 포함될 수 있으며, 이는 모델의 이상 징후 구별 능력에 영향을 미칠 수 있습니다. 이러한 과제로 인해 기계 학습 및 컴퓨터 비전 분야에서 편견을 조사하고 공정성을 옹호하며 새로운 데이터 세트를 도입하기 위한 수많은 노력이 촉발되었습니다.
현재 공정성 분류 연구를 위해 제안된 공개 공정성 데이터 세트는 소수에 불과합니다. 가장 중요한 점은 이러한 데이터 세트의 대부분이 단지 표 형식의 데이터이므로 이미징이 필요한 공정성 컴퓨터 비전을 개발하는 데 적합하지 않다는 것입니다. 데이터. 컴퓨터 비전의 이러한 공정성 부족은 특히 그러한 데이터에 의존하는 딥 러닝 모델의 영향력이 커지고 있다는 점을 고려할 때 특히 우려되는 부분입니다. 의료 영상 분야에서는 공정한 학습을 위해 소수의 데이터 세트만 사용되었습니다.
이러한 데이터 세트의 대부분은 공정성 모델링을 위해 특별히 설계되지 않았습니다(현재 유일한 의료 이미지 데이터 세트는 표 1에 나열되어 있습니다). 일반적으로 연령, 성별, 인종과 같은 제한된 범위의 민감한 속성만 포함하므로 다양한 인구 집단에 대한 공정성을 조사하는 범위가 제한됩니다. 게다가 포괄적인 벤치마킹 프레임워크도 부족합니다. 더 중요한 것은 이러한 이전 데이터 세트와 방법이의료 분류에 대한 솔루션을 제공하지만 의료 세분화
라는 더 중요한 영역을 무시한다는 것입니다.그러나 공정한 학습을 위한 새로운 대규모 데이터 세트를 생성하는 데에는 여러 가지 어려움이 있습니다. 첫째, 대규모 고품질 의료 데이터와 수동 픽셀 수준의 주석이 부족하여 수집하고 주석을 작성하는 데 많은 노동력과 시간이 필요합니다. 둘째, 공정성을 향상하기 위한 기존 방법은 주로 의료 분류를 위해 설계되었으며 세분화 작업에 적용할 때 성능이 여전히 의문스럽습니다. 분할 작업에 존재하는 불공평성이 알고리즘을 통해 효과적으로 완화될 수 있는지 여부도 불확실합니다. 마지막으로, 의료 세분화 모델의 공정성을 평가하기 위한 평가 지표는 여전히 파악하기 어렵습니다. 또한 분류를 위해 설계된 기존 공정성 측정항목을 세분화 작업에 적용하는 데 어려움이 있을 수 있습니다.
이러한 문제를 해결하기 위해 우리는 의료 세분화 분야 최초의 대규모 공정성 데이터세트인 Harvard-FairSeg를 제안합니다. 이 데이터 세트는 그림 1과 같이 SLO 안저 영상에서 녹내장 진단을 위한 공정한 컵-디스크 분할을 연구하는 데 사용되도록 설계되었습니다.
녹내장은 전 세계적으로 회복 불가능한 실명의 주요 원인 중 하나로, 40~80세 연령층에서 3.54%의 유병률을 보이며 약 8천만 명에게 영향을 미칩니다. 초기 녹내장은 증상이 없는 경우가 많으며, 이는 즉각적인 전문 검사의 필요성을 강조합니다. 컵디스크의 정확한 분할은 의료 전문가가 녹내장을 조기 진단하는 데 매우 중요합니다.
특히 흑인은 다른 그룹에 비해 녹내장 발병 위험이 두 배나 높지만 일반적으로 이 그룹은 분할 정확도가 가장 낮습니다. 이는 우리가 분할 공정성 문제를 연구하기 위해 데이터 세트를 컴파일하도록 동기를 부여합니다. 제안된 Harvard-FairSeg 데이터 세트의 주요 내용은 다음과 같습니다.
(1) 의료 세분화 분야의 첫 번째 공정성 학습 데이터 세트입니다. 이 데이터세트는 SLO 안저 영상 데이터의 컵-디스크 분할을 제공합니다. (2) 이 데이터세트에는 공정성 학습 문제를 연구하기 위해 실제 병원 임상 시나리오에서 수집한 6가지 민감한 속성이 탑재되어 있습니다. (3) We Multiple SOTA 공정성 학습 알고리즘; 제안된 새로운 데이터 세트에 대해 평가되고 Dice 및 IoU를 포함한 여러 분할 성능 지표를 사용하여 평가됩니다.
많은 수의 고품질 분할 주석을 얻는 방법
본 연구에서 테스트한 대상은 대규모 학술 안과 병원에서 왔으며 기간은 2010년부터 2021년까지였습니다. 이 연구는 세 가지 유형의 데이터를 게시합니다. (1) SLO 안저 스캔 이미지, (2) 6가지 다른 속성을 포함하는 환자 인구통계 정보, (3) OCT 기계에 의해 자동으로 주석이 추가되고 전문 의료 종사자가 수동으로 평가하는 방법. 픽셀 수준 주석을 사용한 고품질 분할 주석은 항상 의료 분할에서 매우 중요한 부분이었습니다.
우리의 새로운 방법은 먼저 OCT 기계에서 컵과 디스크 영역의 픽셀 주석을 얻는 것입니다. 여기서 디스크 경계는 OCT 제조업체 소프트웨어에 의해 구현되는 3D OCT의 Bruch 멤브레인 개구부와 컵 경계로 구분됩니다. 내부 한계 막(ILM 사이의 교차점)과 최소 표면적을 초래하는 평면 및 평면의 디스크 경계 교차점으로 감지됩니다. 대략적으로 말하면 컵 경계는 Bruch의 막 개구부로 정의되는 시신경 유두 경계에 가장 가까운 ILM의 위치로 생각할 수 있습니다.
브루흐의 막 개구부와 내부 제한 막은 배경과 대비가 높아 쉽게 분할됩니다. 따라서 OCT 메이커 소프트웨어는 3D 정보를 활용하기 때문에 OCT 기계를 사용한 컵과 디스크의 분할은 일반적으로 신뢰할 수 있습니다.
반면, 안저 사진의 2Dcup 및 디스크 분할은 감쇠된 영상 신호 및 혈관 폐색을 포함한 다양한 요인으로 인해 어려울 수 있습니다. 그러나 OCT 기계는 상당히 비싸고 일차 진료에서는 덜 일반적이기 때문에 우리는 이러한 주석을 3D OCT에서 2D SLO 안저 이미지로 마이그레이션하여 일차 진료의 초기 녹내장 검사에 더 넓은 영향을 미칠 것을 제안합니다.
구체적으로 먼저 NiftyReg 도구를 사용하여 SLO 안저 이미지를 OCT에서 파생된 안저 이미지(OCT 안저)와 정렬한 다음 OCT 안저 이미지의 컵 디스크 마스크에 NiftyReg의 아핀 메트릭을 적용하여 정렬합니다. SLO Fundus 이미지 정렬로 이를 수행합니다. 이 프로세스는 많은 수의 고품질 SLO 안저 마스크 주석을 효과적으로 생성하여 노동 집약적인 수동 픽셀 주석 프로세스를 방지합니다.
이 의료 등록 작업은 실제 시나리오에서 상당히 높은 정확도를 보여주고 있다는 점은 주목할 가치가 있으며, 경험적 관찰에 따르면 의료 등록 성공률은 약 80%입니다. 이 자동화된 프로세스에 따라 생성된 마스크는 컵 디스크 영역의 정확한 주석을 보장하고 잘못 배치된 컵 또는 디스크 마스크 및 등록 실패를 제외하기 위해 5명의 의료 전문가로 구성된 패널에 의해 엄격하게 검토되고 수동으로 평가됩니다.
데이터 기능: Harvard-FairSeg 데이터세트에는 10,000개 주제의 10,000개 샘플이 포함되어 있습니다. 우리는 데이터를 8,000개 샘플의 훈련 세트와 2,000개 샘플의 테스트 세트로 분할했습니다. 데이터 세트의 평균 연령은 60.3±16.5세였습니다. 이 데이터 세트에는 심층 공정성 학습 연구를 위해 연령, 성별, 인종, 민족, 선호하는 언어, 결혼 상태 등 6가지 민감한 속성이 포함되어 있습니다.
인종 인구통계 측면에서 데이터세트에는 세 가지 주요 그룹의 샘플이 포함됩니다. 즉, 아시아인(919개 샘플), 흑인(1,473개 샘플), 백인(7,608개 샘플)입니다. 성별로는 여성이 58.5%를 차지했고 나머지는 남성이었다. 인종 분포는 비히스패닉 90.6%, 히스패닉 3.7%, 불특정 5.7%였습니다. 선호하는 언어는 영어가 92.4%, 스페인어가 1.5%, 기타 언어가 1%, 미정이 5.1%로 나타났다. 혼인상태별로는 기혼 또는 동거 57.7%, 미혼 27.1%, 이혼 경험 6.8%, 법적 별거 0.8%, 사별 5.2%, 미상 2.4%로 나타났다.
공정성 향상을 위한 우리의 접근 방식, 공정한 오류 바인딩 스케일링
전체 주사위 손실이 더 작은 샘플 그룹은 모델이 특정 샘플 그룹에 대해 더 잘 학습한다는 것을 의미한다고 가정합니다. 따라서 이러한 샘플 그룹은 다음과 같아야 합니다. 더 작은 작은 무게. 반대로, 전체 주사위 손실이 더 큰 샘플 그룹(예: 다루기 힘든 사례)은 일반화 기능이 저하되고 더 많은 알고리즘 편향을 유발할 수 있으며, 이로 인해 이러한 샘플 그룹에 더 큰 학습 가중치를 할당해야 합니다.
따라서 우리는 훈련 중 서로 다른 인구 그룹 간의 주사위 손실을 조정하기 위한 새로운 공정한 오류 범위 조정 방법을 제안합니다. 우리는 먼저 예측된 픽셀 점수와 실제 목표 사이의 표준 주사위 손실을 다음과 같이 정의합니다.
다양한 속성 그룹 간의 공정성을 보장하기 위해 우리는 위의 주사위 손실을 향상시키기 위해 새로운 공정한 오류 범위 조정 메커니즘을 사용합니다. 손실 함수:
이러한 속성 가중치로 예측된 픽셀 점수를 조정함으로써 이 손실은 다양한 속성 그룹이 모델 훈련 중에 균형 잡힌 방식으로 손실 함수에 기여하도록 보장하여 공정성을 향상시킵니다.
공정한 분할 정확도 평가를 위한 측정항목: Dice 및 IoU와 같은 기존 분할 측정항목은 분할 성능에 대한 통찰력을 제공하지만 여러 그룹 간의 공정성을 효과적으로 포착하지 못할 수 있습니다. 이를 염두에 두고 우리는 다양한 그룹에 걸쳐 세분화 정확도와 공정성을 모두 포함하는 새로운 측정항목을 제안하는 것을 목표로 합니다. 이를 통해 포괄적인 관점이 확보되어 모델이 정확하고 공정하다는 것을 보장할 수 있습니다.
그룹 공정성을 구현하려면 그룹 정확도를 개별적으로 평가해야 합니다. 먼저 분할 측정 정확도 차이 Δ를 다음과 같이 정의합니다.
여기서 Δ는 전체 정확도에서 각 모집단 정확도의 전체 편차를 측정합니다. 모든 그룹이 비슷한 분할 정확도를 달성하면 0에 가까워집니다.
다양한 그룹 간의 공정성을 고려할 때 전체 세분화 정확도와 각 인구통계학적 그룹 내 정확도 간의 상대적인 차이를 계산해야 합니다. 이를 기반으로 우리는 ESSP(Equity-Scaled Segmentation Performance) 측정항목을 아래와 같이 정의합니다.
이 공식은 ESSP가 항상 I보다 작거나 같음을 보장합니다. Δ가 감소함에 따라(그룹 간 분할 성능이 동일함을 나타냄) ESSP는 전통적인 분할 측정항목을 사용하는 경향이 있습니다. 대조적으로, Δ가 높을수록 그룹 간 분할 성능의 차이가 더 커짐을 의미하므로 ESSP 점수가 낮아집니다.
이 접근 방식을 사용하면 정확성(주사위, IoU 등 측정항목을 통해)뿐만 아니라 다양한 그룹 간의 공정성에서도 세분화 모델을 평가할 수 있습니다. 이로 인해 ESSP 채점 기능은 의료 영상 작업에서 분할 정확성과 공정성을 보장하는 핵심 지표가 됩니다. 이 메트릭은 기존 주사위 IoU와 결합하여 ES-Dice 및 ES-IoU가 될 수 있습니다.
실험
두 개의 분할 네트워크를 백본으로 선택했습니다. 그 중 SOTA의 분할 정확도를 실험하기 위해 최근 출시된 대규모 분할 모델인 SAM(Segment Anything Model)을 선택했고, 다른 백본으로는 TransUNet을 선택했습니다.
HD95 ASD や NSD などの他のセグメンテーション メトリクスもテストに使用しました。以下はレースに関する結果です:
以上がICLR2024 | Harvard FairSeg: セグメンテーション アルゴリズムの公平性を研究するための最初の大規模な医療セグメンテーション データセットの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。