目錄
臨床研究結果(CSR)匿名化為何如此困難?
利用增強分析來辨識人類語言中的敏感資訊
用於自然語言處理(NLP)的AI語言模式
透過人機迴圈設計提高準確率
以協同方式解決問題
AI驅動的匿名化方法
比演算法更艱難的挑戰—資料品質
臨床研究的匿名化新挑戰
首頁 科技週邊 人工智慧 隱私權保護:AI實現醫療保健臨床資料匿名化

隱私權保護:AI實現醫療保健臨床資料匿名化

Apr 12, 2023 pm 03:19 PM
ai 醫療保健

隱私權保護:AI實現醫療保健臨床資料匿名化

面對突如其來的新冠疫情,我們已經親眼見證創紀錄等級的資料外洩事件。 IBM最近的一份報告發現,資料外洩的成本也急劇攀升。

醫療保健無疑是受資料外洩影響最大的產業之一,每起資料外洩事件平均造成920萬美元損失。在此類違規案例當中,最常暴露在風險之下的資訊類型正是敏感客戶資料。

製藥和醫療保健企業均需要在保護病患資料的前提下,按照嚴苛的指導要求組織運作。因此,任何違規行為都可能引發高昂代價。例如,在整個藥物發現階段,企業需要收集、處理和儲存個人識別資訊(PII),而在試驗結束並提交臨床申請時,必須在所公佈的結果中註意保護患者隱私。

歐洲藥品管理局(EMA)0070號法規和加拿大衛生部出台的《公開發布臨床資訊》規定,均對資料匿名化提出了具體建議,希望盡量降低利用結果還原病患身分資訊的風險。

除了倡導資料隱私之外,這些法規還要求共享試驗數據,確保社區能夠以此為基礎開展工作。但這無疑讓企業陷入了兩難。

所以,藥廠到底如何在資料隱私與透明度之間求取平衡,同時又能及時、經濟且有效率地發布研究結果?事實證明,AI技術能夠承擔起提交過程中超過97%的工作量,大大減輕企業的營運負擔。

臨床研究結果(CSR)匿名化為何如此困難?

在實施臨床提交匿名化的過程中,企業主要面臨三大核心挑戰:

非結構化資料難於處理:臨床試驗資料當中,有很大一部分屬於非結構化資料。研究結果包含大量文字資料、掃描圖片和表格,處理效率低。研究報告動輒上千頁,從其中辨識出敏感資訊就如同大海撈針。而且,沒有任何標準化技術訓練解決方案能夠自動執行這類處理工作。

手動流程既繁瑣又容易出錯:如今,製藥公司需要雇用數百名員工對臨床研究提交進行匿名處理。整個團隊需要經歷超過25個複雜步驟,典型的摘要文件可能需要長達45天的處理週期。而且在手動檢查幾千頁資料時,枯燥的過程往往極易引發錯誤。

 監管指南的開放性解釋:雖然法規中提出不少詳細建議,但細節仍不夠完備。例如,加拿大衛生部的《公開發布臨床資訊》規定就要求身分資訊的還原風險應低於9%,卻並未詳細介紹具體的風險計算方法。

下面,我們將從解決問題的角度,設想能夠處理這類匿名化需求的具體方案。

利用增強分析來辨識人類語言中的敏感資訊

以下三大要素,有助於建立技術驅動型的匿名化解決方案:

用於自然語言處理(NLP)的AI語言模式

如今,AI已經能夠像藝術家一樣創作,也能像醫生一樣診斷。深度學習技術已推動AI取得許多進步,而AI語言模式正是其中一股中堅力量。作為專司處理人類語言的演算法分支,AI語言模型特別擅長偵測命名實體,例如病患姓名、社保號碼和郵遞區號。

不知不覺中,這些強大的AI模型已經滲透到公共領域的各個角落,並受到公開文件的規模化訓練。除了知名的維基百科之外,包含40,000名病患脫敏資料的MIMIC-III v1.4資料庫也成為訓練AI模型的寶貴資源。當然,為了提升模型效能,還需要由領域專家根據內部臨床試驗報告,對模型進行後續重新訓練。

透過人機迴圈設計提高準確率

加拿大衛生部提出的9%風險門檻標準,可以大致轉化為95%左右的模型準確度要求(一般用召回率或精確度來衡量)。 AI演算法能夠查看大量資料並運行多輪訓練週期來提高自身準確度。然而,單靠技術改進還不足以為臨床應用做好準備,這些模型還需要人的引導與支持。

為了解決臨床試驗數據的主觀性並改善產出結果,分析解決方案在設計上要求與人類協同工作——這就是所謂增強智能。即將人類視為人機迴圈中的一部分,他們不僅負責資料標記和模型訓練,同時在解決方案生效後定期提供回饋。透過這種方式,模型的準確度和產出性能都將有所提升。

以協同方式解決問題

我們假設某項研究共涉及1000名患者,其中980名來自美國本土,其餘20人來自南美洲。那麼,是否需要對這20位患者的資料進行編輯(塗黑)或匿名化處理?是否有必要在同一國家或洲內選擇病患樣本?攻擊者可能會以哪些方式把這些匿名化資訊同年齡、郵遞區號等資料結合起來,最終還原病患身分?

很遺憾,這些問題並沒有標準答案。為了更清楚地解釋臨床提交指南,製藥商、臨床研究組織(CRO)、技術解決方案供應商和學術界的研究人員需要聯合起來、協同處理。

AI驅動的匿名化方法

有了以上幾條基本思路,接下來就是把它們拼湊成完整的解決方案流程。而整個匿名化方案中的各項技術,應當基於我們已經在工作中使用的實際方法。

臨床研究報告中包含各種結構化資料(數字與身分實體,例如人口統計資訊和地址條目),以及我們之前討論過的各種非結構化資料元素。必須妥善處理,才能防止惡意駭客將這些內容還原為敏感的命名實體。結構化資料相對容易處理,但AI演算法還需要攻克非結構化資料這道難關。

因此,首先使用光學字元辨識(OCR)或電腦視覺等技術,將非結構化資料(通常為掃描影像或PDF等格式)轉換為可讀形式。之後,將AI演算法應用於文件以檢測個人識別資訊。為了提升演算法效能,使用者可以分享對樣本結果的回饋,幫助系統了解該如何處理這些置信度較低的分析內容。

隱私權保護:AI實現醫療保健臨床資料匿名化

AI驅動的匿名化方法

在匿名化完成之後,也須評估對應的身份還原風險。這項工作通常需要參考人群背景,再結合其他類似試驗的數據來共同完成。風險評估會透過一組元素著重識別三大風險場景—檢察官、記者和行銷人員。這三群群體會從自身需求出發,嘗試將病患資訊還原。

在風險等級達到規定建議的9%之前,匿名化流程會持續引入更多業務規則和演算法改進,嘗試以重複循環的方式增強效能。再透過與其他技術應用的整合並建立機器學習營運(ML Ops)流程,整個匿名化方案就可以被納入實際工作流程當中。

比演算法更艱難的挑戰—資料品質

對製藥公司來說,這樣的匿名化解決方案能夠將提交週期縮短達97%。更重要的是,這種半自動化工作流程既提高了效率,同時也保證有人類參與其中。但是,建構AI驅動型匿名化解決方案面臨的最大挑戰又是什麼?

其實與大多數資料科學實踐一樣,這項工作的最大阻礙並不是用於識別命名實體的AI演算法,而是如何將研究報告轉換為可供AI處理的高品質資料。對於格式不同、樣式和結構各異的文檔,對應的內容攝取管道經常會無所適從。

因此,AI匿名化解決方案需要不斷微調以適應新的文件編碼格式,或準確地偵測出圖片/表格掃描件中的起始和結束位置。很明顯,這方面工作才是AI匿名化當中最耗費時間和精力的領域。

臨床研究的匿名化新挑戰

隨著科技的快速進步,臨床研究的匿名化難度會不會持續降低、更有效率?雖然AI驅動型解決方案確實令人眼前一亮,但後續也將有新的挑戰需要關注。

首先,透過社群媒體、裝置使用情況和線上追蹤等方式收集到的消費者數據,正大幅提升身分還原的風險。攻擊者可以將這些公開資訊同臨床研究數據結合,準確地識別出患者的身份。更令人擔憂的是,惡意駭客在AI成果的運用上非常積極,甚至有可能搶在製藥公司的行動之前。

最後,法規也持續演變,著力適應特定國家的實踐態勢。也許很快就會有國家公佈臨床提交匿名化的具體法規,這必將增加企業維持合規的複雜性和成本負擔。但所謂前途是光明的、道路是曲折的,AI技術的發展成熟至少為整個產業帶來了攻克難題的希望曙光。

以上是隱私權保護:AI實現醫療保健臨床資料匿名化的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

See all articles