ICLR2024 | Harvard FairSeg: 第一個研究分割演算法公平性的大型醫療分割資料集
作者| 田宇
近年來,人工智慧模型的公平性問題受到了越來越多的關注,尤其是在醫學領域,因為醫學模式的公平性對人們的健康和生命至關重要。高品質的醫學公平性資料集對促進公平學習研究非常必要。
現有的醫學公平性資料集都是針對分類任務的,而沒有可用於醫學分割的公平性資料集,但是醫學分割與分類一樣都是非常重要的醫學AI 任務,在某些場景分割甚至優於分類,因為它能夠提供待臨床醫生評估的器官異常的詳細空間資訊。
在最新的研究中,哈佛大學(Harvard University)的Harvard-Ophthalmology-AI-Lab 團隊提出了第一個用於醫學分割的公平性資料集,名為 Harvard-FairSeg,包含 10,000 個病患樣本。此外,還提出了公平的誤差界限縮放方法,透過使用最新的 Segment Anything Model(SAM),以每個身分組的上界誤差為基礎重新加權損失函數。
為了促進公平比較,團隊利用了一種新穎的評估公平性在分割任務的標準,稱為 equity-scaled segmentation performance。透過全面的實驗,研究人員證明了他們的方法要么具有優越性,要么與最先進的公平學習模型在公平性能上相當。
在這裡,哈佛大學的研究人員和大家分享一波 ICLR 2024 中稿的工作「Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling」。

程式碼位址: https://github.com/Harvard-Ophtha-Harcm-Mr. 資料集網站:
https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/資料集下載連結:
https://drive.google.com/drive/u/1/folders /1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZHarvard-Ophthalmology-AI-Lab 致力於提供高品質公平性資料集,更多資料集包含三種眼科疾病的公平性分類任務。
Harvard-Ophthalmology-AI-Lab 的資料集網頁:
https://ophai.hms.harvard.edu/datasets/背景
隨著人工智慧在醫學影像診斷中的應用日益增加,確保這些深度學習模型的公平性並深入探究在複雜的現實世界情境中可能出現的隱藏偏見變得至關重要。遺憾的是,機器學習模型可能無意中包含了與醫學影像相關的敏感屬性(如種族和性別),這可能會影響模型區分異常的能力。這項挑戰促使人們在機器學習和電腦視覺領域進行了大量的努力,以調查偏見、倡導公平性,並推出新的資料集。
截至目前,只有少數公共公平性數據集被提出用於研究公平性分類,主要的是,這些數據集中的大多數都只是表格數據,因此不適合開發需要影像數據的公平計算機視覺模型。對電腦視覺公平性的缺失尤其令人關注,特別是考慮到依賴此類數據的深度學習模型的影響力日益增強。在醫學影像領域,只有少數資料集被用於公平學習。
這些資料集大多沒有專門為公平性建模而設計(目前僅有的醫療影像資料集我們列在了table 1)。它們通常只包含有限範圍的敏感屬性,如年齡、性別和種族,因此限制了檢查不同人群公平性的範圍。此外,它們也缺乏全面的基準測試框架。更重要的是,儘管這些先前的資料集和方法為
醫學分類提供了解決方案,但它們忽略了醫學分割這一更為關鍵的領域。 然而,為公平學習創建這樣一個新的大型數據集面臨多重挑戰。首先,缺乏大規模、高品質的醫學數據以及手動像素級註釋,這些都需要大量勞動力和時間來收集和標註。其次,現有提升公平性的方法主要是為醫學分類設計的,當適應分割任務時,其表現仍存疑。同樣不確定的是,分割任務中存在的不公平是否可以透過演算法有效地緩解。最後,評估醫學分割模式公平性的評判標準 (evaluation metric)仍然難以捉摸。此外,將現有為分類設計的公平性指標適應到分割任務上也可能存在挑戰。 為了解決這些挑戰,我們提出了第一個大規模醫學分割領域的公平性資料集,Harvard-FairSeg。此資料集旨在用於研究公平性的cup-disc segmentation,從 SLO 眼底影像中診斷青光眼,如圖 1 所示。 青光眼是全球不可逆盲目的主要原因之一,在 40-80 歲年齡層的盛行率為 3.54%,影響了約 8,000 萬人。早期青光眼通常無症狀,這強調了及時進行專業檢查的必要性。對 cup-disc 的準確分割對於醫療專業人員早期診斷青光眼至關重要。 值得注意的是,與其他群體相比,黑人患青光眼的風險加倍,然而這一人群的分割準確率通常最低。這激勵我們整理一個資料集,以研究分割公平性問題我們提出的 Harvard-FairSeg 資料集的亮點如下: (1)醫學分割領域第一個公平性學習資料集。該資料集提供了SLO 眼底成像資料的cup-disc 分割;(2)該資料集配備了從現實醫院臨床情境中收集的六種敏感屬性,用於研究公平性學習問題;(3)我們在我們提出的新資料集上評估了多個 SOTA 公平性學習演算法,並使用包括Dice 和IoU 在內的多種分割效能指標進行了評估。 如何獲得大量的高品質分割標註 本研究中測試的對象來自於一家大型學術眼科醫院,時間跨度為 2010 年至 2021 年。本研究將發布三種類型的數據:(1)SLO 眼底掃描圖像;(2)患者人口統計資訊包含了六種不同的屬性;(3)由OCT 機器自動標註以及由專業醫療從業者手工評級的像素級標註如何獲得大量高品質分割標註一直是醫療分割的重要分體。 我們新穎的透過把cup 和disc 區域的像素標註首先從OCT 機器獲得,其中 disc 邊界在3D OCT 中被分割為Bruch's 膜開口,由OCT 製造商軟體實現, cup 邊界被檢測為內限膜( ILM)與導致最小表面積的平面之間的交叉點和disc 邊界在平面上的交叉點。大致上,cup 邊界可以被認為是 ILM 上最靠近視盤邊界的位置,即定義為 Bruch’s 膜開口。 由於 Bruch’s 膜開口和內限膜與背景之間的高對比度,它們很容易被分割。因此因為 OCT 製造商軟體利用了 3D 訊息,利用 oct 機器對 cup 和 disc 的分割通常是可靠的。 相比之下,眼底照片上的 2Dcup 和 disc 分割可能因包括衰減的成像訊號和血管阻塞等各種因素而具有挑戰性。然而,由於 OCT 機器相當昂貴且在初級保健中較少見,因此我們提議將這些註釋從 3D OCT 遷移到 2D SLO 眼底圖片,以在初級保健領域的早期青光眼篩檢中產生更廣泛的影響。 具體來說,我們首先使用NiftyReg 工具將SLO 眼底圖像與OCT 衍生的眼底圖像(OCT 眼底)對齊隨後,將NiftyReg 的仿射度量應用於OCT 眼底圖像的cup-disc 掩碼,使其與SLO眼底影像對齊。這個過程有效地產生了大量高品質的SLO眼底遮罩註釋,避免了勞動密集的手工像素標註過程。 值得注意的是,這種 medical registration 的操作在現實世界場景中展示了相當高的精確度,我們的經驗觀察表明,medical registration 成功率大約為 80%。在這一自動化過程之後,產生的掩碼經過嚴格審查,並由五名醫學專業人員小組手動評級,以確保cup-disc 區域的精確標註,並排除位置錯誤的cup 或disc 掩碼和registration 失敗的情況。 資料特徵:我們的 Harvard-FairSeg 資料集包含來自 10,000 名受試者的 10,000 個樣本。我們將資料分為包含 8,000 個樣本的訓練集和包含 2,000 個樣本的測試集。資料集的平均年齡為 60.3±16.5 歲。在該資料集中,包含了六個敏感屬性,用於深入的公平性學習研究,這些屬性包括年齡、性別、種族、民族、首選語言和婚姻狀況。 在種族人口統計上,資料集包括來自三個主要群體的樣本:亞洲人,有919個樣本;黑人,有 1,473 個樣本;白人,有 7,608 個樣本。在性別方面,女性佔受試者的 58.5%,其餘為男性。民族分佈以90.6% 的非西班牙裔,3.7% 的西班牙裔和 5.7% 的未說明。在首選語言方面,92.4% 的受試者首選英語,1.5% 首選西班牙語,1%首選其他語言,5.1% 未確定。從婚姻狀況的角度來看,57.7%的人已婚或有伴侶,27.1% 是單身,6.8% 經歷過離婚,0.8%法律上分居,5.2%是喪偶,2.4% 未說明。 我們的提升公平性的方法Fair Error-Bound Scaling 我們假設獲得較小整體Dice 損失的樣本組意味著模型對該特定組的樣本學習得更好,因此,這些樣本組需要較小的權重。相反,整體 Dice 損失較大的樣本組(即難處理的案例)可能導致較差的泛化能力並引起更多的演算法偏差,這需要為這些樣本組分配較大的學習權重。 因此,我們提出了一種新的公平誤差界限縮放方法,用於在訓練過程中縮放不同人群組之間的 Dice 損失。我們首先定義預測像素得分和真實目標之間的標準Dice 損失表示為: 為了確保在不同屬性組之間的公平性,我們使用一種新穎的公平誤差界限縮放機制來增強上述Dice損失。損失函數: 透過以這些屬性權重調節預測像素得分,這種損失確保不同屬性組在模型訓練過程中平衡地貢獻於損失函數,從而促進公平性。 用於評估公平分割準確性的 metric:傳統的分割度量如 Dice 和 IoU 提供了對分割性能的洞察,但可能無法有效捕捉不同群體間的公平性。考慮到這一點,我們的目標是提出一種新的 metric,既包括分割的準確性,也包括在不同群體間的公平性。這就產生了一個全面的視角,確保模型既準確又公平。 為了納入群體公平性,我們需要單獨評估群體的準確性。我們首先定義一個分割度量準確率差異 ∆,如下所示: 這裡,∆ 測量了每個群體的準確性與整體準確性的總體偏差。當所有群體達到類似的分割準確性時,它接近零。 當我們考慮不同群體間的公平性時,我們需要計算總體分割準確性與每個人口統計群體內的準確性之間的相對差異。基於這個,我們定義了Equity-Scaled Segmentation Performance(ESSP)度量,如下所定義: 這種公式確保 ESSP 始終小於或等於 I。隨著 ∆ 減少(表示群體間的分割性能平等),ESSP 趨於傳統分割 metric。相反,較高的 ∆ 表示群體間分割表現的更大差異,導致較低的 ESSP 得分。 這種方法允許我們評估分割模型不僅在準確性(透過 Dice、IoU 等 metric)上,而且在不同群體間的公平性上。這使得 ESSP 評分函數成為確保醫學影像任務中分割準確性和公平性的關鍵指標。這種 metric 可以和傳統的 dice IoU 拼在一起 成為 ES-Dice 和 ES-IoU。 實驗 我們選擇了兩個分割網路作為 backbone。其中,我們選擇了最近推出的分割大模型 Segment Anything Model (SAM) 來實驗 SOTA 的分割準確性,另一個 backbone 我們選擇了 TransUNet。 我們也利用了其他分割的 metric 例如 HD95 ASD 和 NSD 進行測試,以下是在種族上的結果:
以上是ICLR2024 | Harvard FairSeg: 第一個研究分割演算法公平性的大型醫療分割資料集的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为
