编辑 | ScienceAI
在人工智能(AI),特别是医疗AI领域中,解决公平性问题对于确保公平的医疗结果至关重要。
最近,增强公平性的努力引入了新的方法和数据集。然而,在域转移的背景下,公平性问题几乎没有得到探索,尽管诊所常常依赖不同的成像技术(例如,不同的视网膜成像方式)进行患者诊断。
本文提出了FairDomain,这是首次系统性研究算法在域转移下的公平性,我们测试了最先进的域适应(DA)和域泛化(DG)算法,用于医学图像分割和分类任务,旨在了解bias如何在不同域之间转移。
我们还提出了一种新的即插即用的公平身份注意力(FIA)模块,通过使用自注意力机制,根据人口统计属性调整特征重要性,以提高各种DA和DG算法的公平性。
此外,我们还整理并公开了第一个关注公平性的domain-shift数据集,该数据集包含同一患者群体的两种配对成像方式的医学分割和分类任务,以严格评估域转移场景下的公平性。排除源域和目标域之间人口分布差异的混淆影响,将使域转移模型性能的量化更加清晰。
我们的广泛评估表明,所提出的FIA在所有域转移任务(即DA和DG)中显著增强了模型在不同人口统计特征下的公平性和性能,在分割和分类任务中均优于现有方法。
在这里分享ECCV 2024中稿的工作「FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification」
文章地址:https://arxiv.org/abs/2407.08813
代码地址:https://github.com/Harvard-Ophthalmology-AI-Lab/FairDomain
数据集网站:https://ophai.hms.harvard.edu/datasets/harvard-fairdomain20k
数据集下载链接: https://drive.google.com/drive/folders/1huH93JVeXMj9rK6p1OZRub868vv0UK0O?usp=sharing
Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集 更多公平性数据集 请点击lab的数据集主页:https://ophai.hms.harvard.edu/datasets/
背景
近年来,深度学习在医学影像领域的进步极大地提升了分类和分割任务的效果。这些技术有助于提高诊断准确性、简化治疗规划,最终改善患者的健康状况。然而,在不同医疗环境中部署深度学习模型时,面临一个重要挑战,即算法固有的偏见和对特定人口群体的歧视,这可能会削弱医疗诊断和治疗的公平性。
近期的一些研究开始解决医学影像中算法偏见的问题,开发了一些增强深度学习模型公平性的方法。然而,这些方法通常假设训练和测试阶段的数据分布保持不变,这种假设在实际医疗场景中往往不成立。
例如,不同的初级保健诊所和专科医院可能依赖于不同的成像技术(例如,不同的视网膜成像方式)进行诊断,导致显著的域转移,进而影响模型性能和公平性。
因此,在实际部署中,必须考虑域转移,并学习能够在跨域场景中保持公平性的模型。
虽然已有文献广泛探讨了域适应和域泛化,但这些研究主要集中在提高模型准确性,而忽视了确保模型在不同人口群体中提供公平预测的关键性。尤其在医疗领域,决策模型直接影响人类健康和安全,因此研究跨域公平性具有重要意义。
然而,目前仅有少量研究开始探讨跨域公平性的问题,而且这些研究缺乏系统的全面调查,通常仅关注域适应或泛化,而很少同时关注两者。此外,现有的研究主要解决医学分类问题,而忽视了在域转移下同样重要的医学分割任务。
为了解决这些问题,我们介绍了FairDomain,这是医学影像领域第一个系统性探索域转移下算法公平性的研究。
我们通过多个最先进的域适应和泛化算法进行广泛实验,评估这些算法在不同人口统计属性下的准确性和公平性,并了解公平性如何在不同领域之间转移。
我们的观察揭示了在不同的医学分类和分割任务中,源域和目标域之间的群体表现差异显着加剧。这表明需要设计以公平性为导向的算法来有效解决这一紧迫问题。
为了弥补现有偏见缓解工作的不足,我们引入了一种新的多功能公平身份注意力(FIA)机制,该机制设计为可以无缝集成到各种域适应和泛化策略中,通过人口统计属性(例如,种族群体)派生的自注意力来协调特征重要性,以促进公平性。
FairDomain基准的开发面临的一个关键挑战是缺乏一个能够真实反映现实世界医疗领域中域转移的医学影像数据集,而这种域转移通常是由于不同的成像技术引起的。
现有的医学数据集中,源域和目标域之间的患者人口统计差异引入了混淆,难以区分观察到的算法偏见是由于人口统计分布变化还是固有的域转移所致。
为了解决这个问题,我们策划了一个独特的数据集,包括同一患者队列的配对视网膜眼底图像,分别采用两种不同的成像方式(En face 和SLO 眼底图像),专门用于分析域转移场景下的算法偏见。
总结我们的贡献:
2、引入了公平身份注意力技术,以提高域适应和泛化中的准确性和公平性。
3、创建了一个大规模的、用于公平性研究的配对医学分割和分类数据集,专门研究域转移下的公平性问题。
数据收集和质量控制
受试者是在2010年至2021年间从哈佛医学院的一个大型学术眼科医院中选取的。本研究中探讨了两个跨域任务,即医学分割和医学分类任务。对于医学分割任务,数据包括以下五种:
2、SLO 眼底图像扫描;
3、患者的人口统计信息;
4、青光眼诊断;
5、杯盘掩膜注释。
特别地,杯盘区域的像素注释首先通过OCT 设备获取,OCT 制造商的软件将3D OCT 中的盘边缘分割为Bruch's 膜开口,并将杯边缘检测为内界膜(ILM)与平面相交处的最小表面积的交点。
由于 Bruch’s 膜开口和内界膜与背景的高对比度,这些边界可以很容易地分割出来。由于 OCT 制造商软件利用了3D 信息,杯盘分割通常是可靠的。
考虑到初级护理中 OCT 设备的有限可用性和高成本,我们提出了一种将 3D OCT 注释转移到 2D SLO 眼底图像的方法,以提高早期青光眼筛查的效率。
我们使用NiftyReg 工具精确对齐 SLO 眼底图像与 OCT 衍生的像素注释,生成大量高质量的 SLO 眼底掩膜注释。
这一过程经过一组医学专家的验证,注册成功率达 80%,简化了初级护理设置中更广泛应用的注释过程。我们利用这些对齐和手动检查的注释,结合 SLO 和 En face 眼底图像,研究分割模型在域转移下的算法公平性。
对于医学分类任务,数据包括以下四种:
2、SLO 眼底图像扫描;
3、患者的人口统计信息;
4、青光眼诊断。
医学分类数据集中的受试者根据视野测试结果分为正常和青光眼两类。
数据特征
医学分割数据集包含 10000 名受试者的 10000 个样本。我们将数据分为训练集 8000 个样本,测试集 2000 个样本。患者的平均年龄为 60.3 ± 16.5 岁。
数据集包含六个人口统计属性,包括年龄、性别、种族、族裔、首选语言和婚姻状况。人口统计分布如下:
种族:亚洲人占9.2%,黑人占14.7%,白人占76.1%;
族裔:非西班牙裔占90.6% ,西班牙裔占3.7%,未知占5.7%;
首选语言:英语占92.4%,西班牙语占1.5%,其他语言占1%,未知占5.1%;
婚姻状况:已婚或有伴侣占57.7%,单身占27.1%,离婚占6.8%,法律分居占0.8%,丧偶占5.2%,未知占2.4%。
类似地,医学分类数据集包含 10000 名受试者的 10000 个样本,平均年龄为 60.9 ± 16.1 岁。我们将数据分为训练集 8000 个样本,测试集 2000 个样本。人口统计分布如下:
种族:亚洲人占8.7%,黑人占14.5%,白人占76.8%;
族裔:非西班牙裔占96.0% ,西班牙裔占4.0%;
首选语言:英语占 92.6%,西班牙语占 1.7%,其他语言占 3.6%,未知占 2.1%;
婚姻状况:已婚或有伴侣占 58.5%,单身占 26.1%,离婚占 6.9%,法律分居占 0.8%,丧偶占 1.9%,未知占 5.8%。
这些详细的人口统计信息为深入研究跨域任务中的公平性提供了丰富的数据基础。
用来提升跨域AI模型公平性的方法Fair Identity Attention (FIA)
问题定义
域适应(Domain Adaptation, DA)和域泛化(Domain Generalization, DG)是机器学习模型开发中的关键技术,旨在应对模型从一个特定域应用到另一个域时可能出现的变异性。
在医学影像领域,DA 和 DG 技术对于创建能够稳健处理不同医疗机构、成像设备和患者群体之间的变异性的模型至关重要。本文旨在探讨域转移背景下的公平性动态,并开发确保模型在适应或泛化到新域时保持公平和可靠性的方法。
我们旨在开发一个方法函数 f,以减轻模型从源域转移到目标域时常见的公平性恶化。此类恶化主要由于域转移可能放大数据集中现有的偏见,特别是那些与性别、种族或族裔等人口统计属性相关的偏见。
为了解决这个问题,我们提出了一种基于注意力机制的方法,旨在识别和利用与下游任务(如分割和分类)相关的图像特征,同时考虑人口统计属性。
图 3 显示了所提出的公平身份注意力模块的架构。该模块首先通过处理输入图像和输入统计属性标签,以获得输入图像embedding E_i 和属性embedding E_a。然后将这些嵌入加上位置embedding E_p。详细的计算公式如下:
通过计算query和key的点积,我们提取与当前特征属性相关的相似度矩阵。然后使用该矩阵与value的点积提取每个特征属性在下游任务中显著的特征。这个过程由以下公式表示:
其中 D是一个缩放因子,以避免 softmax 函数中的值过大。
随后,一个残差连接将E_i添加到注意力的输出中,以保持输入信息的完整性。最后,一个归一化层和一个多层感知器(MLP)层进一步提取特征。在对这两个层的输出进行另一次残差操作后,我们得到了公平注意力模块的最终输出。
公平身份注意力机制是一种强大且多功能的工具,旨在提高模型性能,同时解决公平性问题。通过明确考虑人口统计属性(如性别、种族或族裔),它确保学习到的表示不会无意中放大数据中存在的偏见。
其架构允许它作为一个插件组件无缝集成到任何现有网络中。这种模块化性质使得研究人员和实践者能够在不需要对底层架构进行大量修改的情况下,将公平身份注意力集成到他们的模型中。
因此,公平身份注意力模块不仅有助于提高分割和分类任务中的模型准确性和公平性,还通过促进数据集中不同群体的公平待遇来推动可信AI落地。
实验
在我们的实验中,我们首先分析了在域转移背景下的公平性,具体关注于杯盘分割任务。杯盘分割是指在眼底图像中精确描绘视杯和视盘的过程,这对于计算杯盘比(CDR)至关重要,是评估青光眼进展和风险的关键参数。
这一任务在医学影像领域尤为重要,尤其是在诊断和管理青光眼等眼科疾病时。由于视杯是视盘的一个重要子区域,我们将分割任务重新定义为视杯和边缘(视杯和视盘边缘之间的组织区域)分割,以避免因视杯和视盘之间的大面积重叠而导致的表现失真。
我们研究了在三种不同的人口统计特征(性别、种族和族裔)下的公平性表现,涉及两个不同的领域:从光学相干断层扫描(OCT)中获取的 En face 眼底图像和扫描激光眼底图像(SLO)。
在随后的实验中,我们选择 En face 眼底图像作为源域,SLO 眼底图像作为目标域。其原因在于,与 SLO 眼底图像相比,En face 眼底图像在专科眼科护理环境中更为常见,因此数据的可用性显著更高。
Par conséquent, nous choisissons d'utiliser l'image du fond d'œil En face comme domaine source et l'image du fond d'œil SLO comme domaine cible. Pour la tâche de classification, nous utilisons les images du fond d'œil de ces deux domaines comme domaines source et cible, classés en deux catégories : normal et glaucome.
Métriques d'évaluation
Nous utilisons les métriques Dice et IoU pour évaluer les performances de segmentation, et l'AUC pour évaluer les performances des tâches de classification. Ces mesures traditionnelles de segmentation et de classification, bien que reflétant les performances du modèle, ne tiennent pas intrinsèquement compte de l’équité entre les groupes démographiques.
Pour résoudre le compromis potentiel entre les performances du modèle et l'équité en imagerie médicale, nous utilisons la nouvelle métrique Equity Scaled Performance (ESP) pour évaluer les performances et l'équité des tâches de segmentation et de classification.
Soit ∈{Dice,IoU,AUC,...}M dans {Dice,IoU, AUC, .}M∈{Dice,IoU,AUC,...} représente les performances générales adaptées à la segmentation ou à l'indice de classification. . Les évaluations traditionnelles ignorent souvent les attributs de l’identité démographique, manquant ainsi les évaluations essentielles de l’équité. Pour intégrer l'équité, nous calculons d'abord la différence de performance Δ, définie comme l'écart collectif des mesures de chaque groupe démographique par rapport à la performance globale, qui est formulée comme suit :
Lorsque l'équité des performances entre les groupes est atteinte, Δ est proche de zéro. , reflète la plus petite différence. Ensuite, la métrique ESP peut être formulée comme suit :
Cette métrique unifiée permet d'évaluer de manière exhaustive les modèles d'apprentissage en profondeur, en mettant l'accent non seulement sur leur précision (par exemple via des mesures telles que Dice, IoU et AUC), mais également sur leur performance dans différentes équités parmi les groupes de population.
Résultats de la segmentation Cup-Rim sous les changements de domaine
Résultats de la classification du glaucome sous les changements de domaine
Résumé
Cet article se concentre sur l'intelligence artificielle (notamment médicale Problèmes d’équité dans l’IA), qui sont essentiels pour parvenir à des soins de santé équitables.
Étant donné que les cliniques peuvent utiliser différentes technologies d'imagerie, la question de l'équité dans le transfert de domaine reste largement inexplorée. Notre travail présente FairDomain, une étude approfondie sur l'équité algorithmique dans les tâches de transfert de domaine, y compris l'adaptation et la généralisation de domaine, impliquant deux tâches courantes de segmentation et de classification médicales.
Nous proposons un nouveau module plug-and-play Fair Identity Attention (FIA) pour apprendre la corrélation des fonctionnalités basée sur les attributs démographiques grâce à un mécanisme d'attention visant à améliorer l'équité dans les tâches de transfert de domaine.
Nous avons également créé le premier ensemble de données inter-domaines axé sur l'équité contenant deux images d'imagerie appariées de la même cohorte de patients pour exclure les effets confondants des changements de distribution démographique sur l'équité du modèle, permettant une évaluation précise de l'impact du transfert de domaine sur l'équité du modèle.
Notre modèle d'attention à l'identité équitable peut améliorer les méthodes existantes d'adaptation et de généralisation des domaines, permettant ainsi d'améliorer les performances du modèle dans un souci d'équité.
Remarque : L'image de couverture est générée par l'IA.
以上是ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性的详细内容。更多信息请关注PHP中文网其他相关文章!