개인 정보 보호: AI가 의료 임상 데이터를 익명화합니다.
갑작스러운 코로나19 사태 속에서 우리는 기록적인 데이터 유출을 목격했습니다. 최근 IBM 보고서에 따르면 데이터 유출로 인한 비용도 급격히 증가하고 있습니다.
의료 분야는 의심할 여지 없이 데이터 유출로 인해 가장 큰 영향을 받는 산업 중 하나이며, 데이터 유출 사건당 평균 920만 달러의 손실이 발생합니다. 이러한 위반 시 가장 자주 노출되는 정보 유형은 민감한 고객 데이터입니다.
제약 및 의료 회사는 환자 데이터를 보호하면서 엄격한 지침에 따라 조직하고 운영해야 합니다. 따라서 모든 위반은 비용이 많이 들 수 있습니다. 예를 들어, 회사는 약물 발견 단계 전반에 걸쳐 개인 식별 정보(PII)를 수집, 처리 및 저장해야 하며, 시험이 종료되고 임상 신청서가 제출되면 게시된 결과에서 환자의 개인 정보를 보호하기 위해 주의를 기울여야 합니다.
유럽의약청(EMA) 규정 번호 0070과 캐나다 보건부가 발행한 "임상 정보의 공개" 규정은 모두 환자 신원 정보를 복원하기 위해 결과를 사용하는 위험을 최소화하기 위해 데이터 익명화에 대한 구체적인 제안을 제시했습니다. .
이 규정은 데이터 개인정보 보호를 옹호하는 것 외에도 커뮤니티가 이에 대해 작업할 수 있도록 시험 데이터를 공유하도록 요구합니다. 그러나 이는 의심할 여지 없이 기업을 딜레마에 빠뜨린다.
그렇다면 제약회사는 어떻게 데이터 개인정보 보호와 투명성 사이의 균형을 유지하면서 연구 결과를 시기적절하고 비용 효과적이며 효율적인 방식으로 게시할 수 있을까요? 제출 과정에서 AI 기술이 업무량의 97% 이상을 차지해 기업의 운영 부담을 크게 줄일 수 있다는 사실이 입증됐다.
임상 연구 결과(CSR)를 익명화하는 것이 왜 그렇게 어려운가요?
임상 제출물의 익명화를 구현하는 과정에서 기업은 주로 세 가지 핵심 과제에 직면합니다.
비정형 데이터는 처리하기 어렵습니다. 임상 시험 데이터의 상당 부분은 비정형 데이터입니다. 연구 결과에는 대량의 텍스트 데이터, 스캔한 이미지, 테이블이 포함되어 있어 처리가 비효율적입니다. 연구 보고서는 수천 페이지에 달하는 경우가 많으며, 보고서에서 중요한 정보를 식별하는 것은 건초 더미에서 바늘을 찾는 것과 같습니다. 게다가 이러한 유형의 처리를 자동화할 수 있는 표준화된 기술 교육 솔루션도 없습니다.
수동 프로세스는 번거롭고 오류가 발생하기 쉽습니다. 현재 제약 회사는 임상 연구 제출물을 익명화하기 위해 수백 명의 직원을 고용해야 합니다. 전체 팀은 25개 이상의 복잡한 단계를 거쳐야 하며 일반적인 요약 문서를 처리하는 데 최대 45일이 걸릴 수 있습니다. 그리고 수천 페이지에 달하는 자료를 수동으로 검토할 때 지루한 프로세스로 인해 오류가 발생하는 경우가 많습니다.
규제 지침의 공개 해석: 규정에 세부 제안 사항이 많지만 세부 사항은 아직 불완전합니다. 예를 들어, 캐나다 보건부(Health Canada)의 "임상 정보 공개" 규정에서는 신원 정보 복구 위험이 9% 미만이어야 한다고 요구하지만 구체적인 위험 계산 방법은 자세히 설명하지 않습니다.
아래에서는 문제 해결의 관점에서 이러한 익명화 요구를 처리할 수 있는 구체적인 솔루션을 상상해 보겠습니다.
증강 분석을 사용하여 인간 언어에 있는 민감한 정보를 식별합니다.
다음 세 가지 요소는 기술 기반 익명화 솔루션을 구축하는 데 도움이 됩니다.
자연어 처리(NLP)를 위한 AI 언어 모델
오늘날 AI는 이미 예술가처럼 창작하고 의사처럼 진단하세요. 딥 러닝 기술은 AI의 많은 발전을 촉진했으며 AI 언어 모델은 중추 중 하나입니다. 인간 언어를 처리하도록 설계된 알고리즘의 한 분야인 AI 언어 모델은 환자 이름, 주민등록번호, 우편번호와 같은 명명된 엔터티를 감지하는 데 특히 좋습니다.
이 강력한 AI 모델은 무의식적으로 공개 도메인의 모든 구석구석에 침투하여 공개 문서를 사용하여 대규모로 훈련되었습니다. 잘 알려진 Wikipedia 외에도 40,000명의 환자의 탈민감화 데이터를 포함하는 MIMIC-III v1.4 데이터베이스도 AI 모델 훈련을 위한 귀중한 리소스가 되었습니다. 물론, 모델 성능을 향상시키기 위해 도메인 전문가는 내부 임상 시험 보고서를 기반으로 모델의 후속 재교육을 수행해야 합니다.
인간-기계 루프 설계를 통한 정확도 향상
캐나다 보건부에서 제안한 9% 위험 임계값 표준은 약 95%(일반적으로 재현율 또는 정밀도로 측정)의 모델 정확도 요구 사항으로 대략 변환할 수 있습니다. AI 알고리즘은 대량의 데이터를 살펴보고 여러 훈련 주기를 실행하여 정확도를 높일 수 있습니다. 그러나 기술적 개선만으로는 임상 적용을 준비하기에 충분하지 않습니다. 이러한 모델에는 인간의 지도와 지원도 필요합니다.
임상 시험 데이터의 주관성을 해결하고 결과를 개선하기 위해 분석 솔루션은 인간과 함께 작동하도록 설계되었습니다. 이를 증강 지능이라고 합니다. 즉, 인간은 인간-기계 루프의 일부로 간주되며 데이터 라벨링 및 모델 교육을 담당할 뿐만 아니라 솔루션이 효과적인 후에 정기적인 피드백도 제공합니다. 이러한 방식으로 모델의 정확도와 출력 성능이 향상됩니다.
협업적 접근 방식으로 문제 해결
연구에 총 1,000명의 환자가 참여하고 그 중 980명은 미국 대륙 출신이고 나머지 20명은 남아메리카 출신이라고 가정해 보겠습니다. 그렇다면 이 20명의 환자의 데이터를 편집(검게 처리)하거나 익명화해야 합니까? 동일한 국가 또는 대륙 내에서 환자 표본을 선택해야 합니까? 공격자는 어떤 방법으로 이 익명화된 정보를 연령, 우편번호 및 기타 데이터와 결합하여 궁극적으로 환자의 신원을 복원할 수 있습니까?
안타깝게도 이러한 질문에 대한 표준 답변은 없습니다. 임상 제출 지침을 보다 명확하게 해석하려면 제약 제조업체, 임상 연구 기관(CRO), 기술 솔루션 제공업체 및 학계 연구자가 힘을 합쳐 협력해야 합니다.
AI 기반 익명화 방법
위의 기본 아이디어를 바탕으로 다음 단계는 이를 하나의 완전한 솔루션 프로세스로 통합하는 것입니다. 전체 익명화 솔루션의 다양한 기술은 우리가 이미 업무에 사용하고 있는 실제 방법을 기반으로 해야 합니다.
임상 연구 보고서에는 이전에 논의한 다양한 구조화되지 않은 데이터 요소뿐만 아니라 다양한 구조화된 데이터(인구통계 정보 및 주소 항목과 같은 숫자 및 신원 항목)가 포함되어 있습니다. 악의적인 해커가 이를 민감한 명명된 엔터티로 복원하는 것을 방지하려면 이를 적절하게 처리해야 합니다. 정형 데이터는 상대적으로 처리하기 쉽지만, AI 알고리즘은 비정형 데이터의 어려움을 극복해야 합니다.
따라서 비정형 데이터(일반적으로 스캔한 이미지 또는 PDF와 같은 형식)는 먼저 광학 문자 인식(OCR) 또는 컴퓨터 비전과 같은 기술을 사용하여 읽을 수 있는 형식으로 변환됩니다. 이후 AI 알고리즘을 문서에 적용해 개인식별정보를 탐지한다. 알고리즘 성능을 향상시키기 위해 사용자는 샘플 결과에 대한 피드백을 공유하여 시스템이 이러한 신뢰도가 낮은 분석을 처리하는 방법을 이해하는 데 도움을 줄 수 있습니다.
AI 기반 익명화 방법
익명화가 완료된 후에는 해당 신원 복원 위험도 평가해야 합니다. 이 작업에는 일반적으로 모집단의 배경에 대한 참조가 필요하며 다른 유사한 임상시험의 데이터와 결합됩니다. 위험 평가는 일련의 요소를 통해 검사, 언론인, 마케팅 담당자 등 세 가지 주요 위험 시나리오를 식별하는 데 중점을 둡니다. 이들 세 그룹은 각자의 필요에 따라 환자 정보를 복원하려고 노력할 것입니다.
위험 수준이 규정된 권장 사항의 9%에 도달하기 전에 익명화 프로세스는 계속해서 더 많은 비즈니스 규칙과 알고리즘 개선을 도입하여 반복적인 주기에서 효율성을 높이기 위해 노력할 것입니다. 그런 다음 다른 기술 애플리케이션과 통합하고 기계 학습 운영(ML Ops) 프로세스를 구축함으로써 전체 익명화 솔루션을 실제 워크플로우에 통합할 수 있습니다.
알고리즘보다 더 어려운 과제 - 데이터 품질
제약회사의 경우 이러한 익명화 솔루션은 제출 주기를 최대 97%까지 단축할 수 있습니다. 더 중요한 것은 이 반자동 워크플로우가 효율성을 향상시키는 동시에 사람의 참여를 보장한다는 것입니다. 하지만 AI 기반 익명화 솔루션을 구축하는 데 있어 가장 큰 과제는 무엇입니까?
사실 대부분의 데이터 과학 실무와 마찬가지로 이 작업의 가장 큰 장애물은 명명된 엔터티를 식별하는 데 사용되는 AI 알고리즘이 아니라 연구 보고서를 AI가 처리할 수 있는 고품질 데이터로 변환하는 방법입니다. 형식, 스타일, 구조가 다른 문서의 경우 해당 콘텐츠 수집 파이프라인이 손실되는 경우가 많습니다.
따라서 AI 익명화 솔루션은 새로운 문서 인코딩 형식에 적응하거나 사진/테이블 스캔에서 시작 및 끝 위치를 정확하게 감지하기 위해 지속적으로 미세 조정되어야 합니다. 분명히 이러한 작업 측면은 AI 익명화에서 가장 시간과 에너지가 많이 소모되는 영역입니다.
임상 연구에서 익명화에 대한 새로운 도전
기술의 급속한 발전과 함께 임상 연구의 익명화는 계속해서 덜 어렵고 더 효율적일까요? AI 기반 솔루션은 실제로 인상적이지만 주의가 필요한 새로운 과제도 있을 것입니다.
첫째, 소셜 미디어, 기기 사용 및 온라인 추적을 통해 수집된 소비자 데이터는 신원 복원 위험을 크게 증가시킵니다. 공격자는 이러한 공개 정보를 임상 연구 데이터와 결합하여 환자를 정확하게 식별할 수 있습니다. 더욱 걱정스러운 것은 악의적인 해커들이 AI 결과를 적용하는 데 매우 적극적이며 심지어 제약회사를 앞지를 수도 있다는 점이다.
마지막으로 국가별 관행을 수용하기 위해 규정이 계속 발전하고 있습니다. 아마도 곧 일부 국가에서는 임상 제출의 익명화에 대한 구체적인 규정을 발표하게 될 것이며, 이는 기업이 규정 준수를 유지하는 데 있어 복잡성과 비용 부담을 확실히 증가시킬 것입니다. 그러나 미래는 밝지만 가는 길은 험난하다는 속담처럼 AI 기술의 성숙한 발전은 적어도 업계 전체에 문제를 극복할 수 있는 희망을 가져다준다.
위 내용은 개인 정보 보호: AI가 의료 임상 데이터를 익명화합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

Centos 시스템에서 Gitlab 로그를보기위한 완전한 안내서이 기사에서는 메인 로그, 예외 로그 및 기타 관련 로그를 포함한 CentOS 시스템에서 다양한 Gitlab 로그를 보는 방법을 안내합니다. 로그 파일 경로는 Gitlab 버전 및 설치 방법에 따라 다를 수 있습니다. 다음 경로가 존재하지 않으면 GitLab 설치 디렉토리 및 구성 파일을 확인하십시오. 1. 기본 gitlab 로그보기 다음 명령을 사용하여 Gitlabrails 응용 프로그램의 기본 로그 파일을 보려면 다음 명령 : 명령 : sudocat/var/log/gitlab/gitlab-rails/production.log이 명령은 제품을 표시합니다.

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :
