目录
临床研究结果(CSR)匿名化为何如此困难?
利用增强分析识别人类语言中的敏感信息
用于自然语言处理(NLP)的AI语言模型
通过人机回圈设计提高准确率
以协同方式解决问题
AI驱动的匿名化方法
比算法更艰难的挑战—数据质量
临床研究的匿名化新挑战
首页 科技周边 人工智能 隐私保护:AI实现医疗保健临床数据匿名化

隐私保护:AI实现医疗保健临床数据匿名化

Apr 12, 2023 pm 03:19 PM
ai 医疗保健

隐私保护:AI实现医疗保健临床数据匿名化

面对突如其来的新冠疫情,我们已经亲眼见证创纪录级别的数据泄露事件。IBM最近的一份报告发现,数据泄露的成本也在急剧攀升。

医疗保健无疑是受数据泄露影响最大的行业之一,每起数据泄露事件平均造成920万美元损失。在此类违规案例当中,最常暴露在风险之下的信息类型正是敏感客户数据。

制药和医疗保健企业均需要在保护患者数据的前提下,按照严苛的指导要求组织运营。因此,任何违规行为都可能引发高昂代价。例如,在整个药物发现阶段,企业需要收集、处理和存储个人身份信息(PII),而在试验结束并提交临床申请时,必须在所公布的结果中注意保护患者隐私。

欧洲药品管理局(EMA)0070号法规和加拿大卫生部出台的《公开发布临床信息》规定,均对数据匿名化提出了具体建议,希望尽量降低利用结果还原患者身份信息的风险。

除了倡导数据隐私之外,这些法规还要求共享试验数据,确保社区能够以此为基础开展工作。但这无疑让企业陷入了两难境地。

所以,制药企业到底如何在数据隐私与透明度之间求取平衡,同时又能及时、经济且高效地发布研究结果?事实证明,AI技术能够承担起提交过程中超过97%的工作量,大大减轻企业的运营负担。

临床研究结果(CSR)匿名化为何如此困难?

在实施临床提交匿名化的过程中,企业主要面临三大核心挑战:

非结构化数据难于处理:临床试验数据当中,有很大一部分属于非结构化数据。研究结果中包含大量文本数据、扫描图片和表格,处理效率低下。研究报告动辄上千页,从其中识别出敏感信息就如同大海捞针。而且,没有任何标准化技术培训解决方案能够自动执行这类处理工作。

手动过程既繁琐又容易出错:如今,制药企业需要雇用数百名员工对临床研究提交进行匿名处理。整个团队需要经历超过25个复杂步骤,典型的摘要文档就可能需要长达45天的处理周期。而且在手动检查几千页材料时,枯燥的过程往往极易引发错误。

 监管指南的开放性解释:虽然法规中提出不少详细建议,但细节仍然不够完备。例如,加拿大卫生部的《公开发布临床信息》规定就要求身份信息的还原风险应低于9%,却并没有详细介绍具体的风险计算方法。

下面,我们将从解决问题的角度,设想能够处理这类匿名化需求的具体方案。

利用增强分析识别人类语言中的敏感信息

以下三大要素,有助于建立技术驱动型的匿名化解决方案:

用于自然语言处理(NLP)的AI语言模型

如今,AI已经能够像艺术家那样创作,也能像医生那样诊断。深度学习技术已经推动AI取得诸多进步,而AI语言模型正是其中一股中坚力量。作为专司处理人类语言的算法分支,AI语言模型特别擅长检测命名实体,例如患者姓名、社保号码和邮政编码。

不知不觉当中,这些强大的AI模型已经渗透到公共领域的各个角落,并受到公开文档的规模化训练。除了知名的维基百科之外,包含40000名患者脱敏数据的MIMIC-III v1.4数据库也成为训练AI模型的宝贵资源。当然,为了提高模型性能,还需要由领域专家根据内部临床试验报告,对模型开展后续重新训练。

通过人机回圈设计提高准确率

加拿大卫生部提出的9%风险阈值标准,可以大致转化为95%左右的模型准确度要求(一般用召回率或精确度来衡量)。AI算法能够查看大量数据并运行多轮训练周期来提高自身准确度。然而,单靠技术改进还不足以为临床应用做好准备,这些模型还需要人的引导与支持。

为了解决临床试验数据的主观性并改善产出结果,分析解决方案在设计上要求与人类协同工作——这就是所谓增强智能。即将人类视为人机回圈中的一部分,他们不仅负责数据标记和模型训练,同时要在解决方案生效后定期提供反馈。通过这种方式,模型的准确度和产出性能都将有所提升。

以协同方式解决问题

我们假设某项研究共涉及1000名患者,其中980名来自美国本土,其余20人来自南美洲。那么,是否需要对这20位患者的数据进行编辑(涂黑)或匿名化处理?是否有必要在同一国家或洲内选择患者样本?攻击者可能会以哪些方式把这些匿名化信息同年龄、邮政编码等数据结合起来,最终还原患者身份?

很遗憾,这些问题并没有标准答案。为了更清楚地解释临床提交指南,制药商、临床研究组织(CRO)、技术解决方案供应商和学术界的研究人员需要联合起来、协同处理。

AI驱动的匿名化方法

有了以上几条基本思路,接下来就是把它们拼凑成完整的解决方案流程。而整个匿名化方案中的各项技术,应当基于我们已经在工作中使用的实际方法。

临床研究报告中包含各种结构化数据(数字与身份实体,例如人口统计信息和地址条目),以及我们之前讨论过的各种非结构化数据元素。必须妥善处理,才能防止恶意黑客将这些内容还原为敏感的命名实体。结构化数据相对易于处理,但AI算法还需要攻克非结构化数据这道难关。

因此,首先使用光学字符识别(OCR)或计算机视觉等技术,将非结构化数据(通常为扫描图像或PDF等格式)转换为可读形式。之后,将AI算法应用于文档以检测个人身份信息。为了提升算法性能,用户可以分享对样本结果的反馈,帮助系统了解该如何处理这些置信度较低的分析内容。

隐私保护:AI实现医疗保健临床数据匿名化

AI驱动的匿名化方法

在匿名化完成之后,还须评估相应的身份还原风险。这项工作通常需要参考人群背景,再结合来自其他类似试验的数据来共同完成。风险评估会通过一组元素着重识别三大风险场景——检察官、记者和营销人员。这三群群体会从自身需求出发,尝试对患者信息加以还原。

在风险水平达到规定建议的9%之前,匿名化流程会持续引入更多业务规则和算法改进,尝试以重复循环的方式增强效能。再通过与其他技术应用的集成并建立机器学习运营(ML Ops)流程,整个匿名化方案就可以被纳入实际工作流当中。

比算法更艰难的挑战—数据质量

对制药企业来说,这样的匿名化解决方案能够将提交周期缩短达97%。更重要的是,这种半自动化工作流程既提高了效率,同时又保证有人类参与其中。但是,构建AI驱动型匿名化解决方案面临的最大挑战又是什么?

其实与大多数数据科学实践一样,这项工作的最大阻碍并不是用于识别命名实体的AI算法,而是如何将研究报告转换为可供AI处理的高质量数据。对于格式不同、样式和结构各异的文档,相应的内容摄取管道经常会无所适从。

因此,AI匿名化解决方案需要不断微调以适应新的文档编码格式,或者准确检测出图片/表格扫描件中的起始和结束位置。很明显,这方面工作才是AI匿名化当中最耗费时间和精力的领域。

临床研究的匿名化新挑战

随着技术的快速进步,临床研究的匿名化难度会不会持续降低、更加高效?虽然AI驱动型解决方案确实令人眼前一亮,但后续还将有新的挑战需要关注。

首先,通过社交媒体、设备使用情况和线上跟踪等方式收集到的消费者数据,正大大提升身份还原的风险。攻击者可以将这些公开信息同临床研究数据相结合,准确识别出患者的身份。更令人担忧的是,恶意黑客在AI成果的运用上非常积极,甚至有可能抢在制药企业的行动之前。

最后,法规也在持续演变,着力适应特定国家/地区的实践态势。也许很快就会有国家公布临床提交匿名化的具体法规,这必将增加企业保持合规的复杂性和成本负担。但所谓前途是光明的、道路是曲折的,AI技术的发展成熟至少为整个行业带来了攻克难题的希望曙光。

以上是隐私保护:AI实现医疗保健临床数据匿名化的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? WorldCoin(WLD)价格预测2025-2031:到2031年WLD会达到4美元吗? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。 WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。 2025年WLD价格预测预计2025年WLD将实现显着增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨链交易什么意思?跨链交易所有哪些? 跨链交易什么意思?跨链交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨链交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,这些平台通过各种技术支持多链资产交易。

web3交易平台排行榜_web3全球交易所前十名汇总 web3交易平台排行榜_web3全球交易所前十名汇总 Apr 21, 2025 am 10:45 AM

币安是全球数字资产交易生态的霸主,其特点包括:1. 日均交易量突破$1500亿,支持500 交易对,覆盖98%主流币种;2. 创新矩阵涵盖衍生品市场、Web3布局和教育体系;3. 技术优势为毫秒级撮合引擎,峰值处理量达140万笔/秒;4. 合规进展持有15国牌照,并在欧美设立合规实体。

虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 虚拟币价格上涨或者下降是为什么 虚拟币价格上涨或者下降的原因 Apr 21, 2025 am 08:57 AM

虚拟币价格上涨因素包括:1.市场需求增加,2.供应量减少,3.利好消息刺激,4.市场情绪乐观,5.宏观经济环境;下降因素包括:1.市场需求减少,2.供应量增加,3.利空消息打击,4.市场情绪悲观,5.宏观经济环境。

如何在币安拿下 KERNEL 空投奖励 全流程攻略 如何在币安拿下 KERNEL 空投奖励 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密货币的繁华世界里,新机遇总是不断涌现。当下,KernelDAO (KERNEL) 空投活动正备受瞩目,吸引着众多投资者的目光。那么,这个项目究竟是什么来头?BNB Holder 又能从中获得怎样的好处?别急,下面将为你一一揭晓。

Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Aavenomics是修改AAVE协议令牌并介绍令牌回购的建议,已达到法定人数 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE协议令牌并引入令牌回购的提议,已为AAVEDAO实现了一个法定人数。AAVE连锁计划(ACI)创始人马克·泽勒(MarcZeller)在X上宣布了这一点,并指出它标志着该协议的新时代。AAVE连锁倡议(ACI)创始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE协议令牌和引入令牌回购,已为AAVEDAO实现了法定人数。根据Zeller的说法,这标志着该协议的新时代。AaveDao成员以压倒性的投票支持该提议,即在周三以每周100

币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 币圈杠杆交易所排名 币圈十大杠杆交易所APP最新推荐 Apr 21, 2025 pm 11:24 PM

2025年在杠杆交易、安全性和用户体验方面表现突出的平台有:1. OKX,适合高频交易者,提供最高100倍杠杆;2. Binance,适用于全球多币种交易者,提供125倍高杠杆;3. Gate.io,适合衍生品专业玩家,提供100倍杠杆;4. Bitget,适用于新手及社交化交易者,提供最高100倍杠杆;5. Kraken,适合稳健型投资者,提供5倍杠杆;6. Bybit,适用于山寨币探索者,提供20倍杠杆;7. KuCoin,适合低成本交易者,提供10倍杠杆;8. Bitfinex,适合资深玩

十大加密货币交易所平台 世界最大的数字货币交易所榜单 十大加密货币交易所平台 世界最大的数字货币交易所榜单 Apr 21, 2025 pm 07:15 PM

在当今的加密货币市场中,交易所扮演着至关重要的角色,它们不仅是投资者进行买卖交易的平台,更是市场流动性和价格发现的重要来源。全球最大的虚拟货币交易所排行前十,这些交易所不仅在交易量上遥遥领先,而且在用户体验、安全性和创新服务方面也各有千秋。排行榜首的交易所通常拥有庞大的用户基础和广泛的市场影响力,它们的交易量和资产种类往往是其他交易所难以企及的。

See all articles