연구에 따르면 강화 학습 모델은 멤버십 추론 공격에 취약합니다.
번역가 | Li Rui
리뷰어 | Sun Shujuan
머신러닝이 사람들이 매일 사용하는 많은 애플리케이션의 일부가 되면서 사람들은 머신러닝의 보안과 취약점을 식별하고 해결하는 방법에 점점 더 많은 관심을 기울이고 있습니다. 모델. 개인 정보 보호에 대한 위협.
그러나 다양한 기계 학습 패러다임이 직면하는 보안 위협은 다양하며 기계 학습 보안의 일부 영역은 아직 연구가 부족합니다. 특히 강화학습 알고리즘의 보안은 최근 몇 년간 큰 관심을 받지 못했습니다.
캐나다 McGill 대학교, MILA(Machine Learning Laboratory) 및 워털루 대학교의 연구원들은 심층 강화 학습 알고리즘의 개인 정보 보호 위협에 초점을 맞춘 새로운 연구를 수행했습니다. 연구원들은 멤버십 추론 공격에 대한 강화 학습 모델의 취약성을 테스트하기 위한 프레임워크를 제안합니다.
연구 결과에 따르면 공격자는 심층 강화 학습(RL) 시스템을 효과적으로 공격할 수 있으며 모델 훈련에 사용되는 민감한 정보를 얻을 수 있습니다. 강화 학습 기술이 이제 산업 및 소비자 응용 분야로 진출하고 있기 때문에 그들의 연구 결과는 중요합니다.
멤버십 추론 공격
멤버십 추론 공격은 대상 기계 학습 모델의 동작을 관찰하고 이를 훈련하는 데 사용되는 예제를 예측합니다.
모든 기계 학습 모델은 일련의 예제를 통해 학습됩니다. 경우에 따라 훈련 예시에는 건강, 금융 데이터 또는 기타 개인 식별 정보와 같은 민감한 정보가 포함됩니다.
멤버 추론 공격은 기계 학습 모델이 훈련 세트 데이터를 유출하도록 시도하는 일련의 기술입니다. 적대적인 예(기계 학습에 대한 더 잘 알려진 공격 유형)는 기계 학습 모델의 동작을 변경하는 데 중점을 두고 보안 위협으로 간주되는 반면, 멤버십 추론 공격은 모델에서 정보를 추출하는 데 중점을 두고 개인 정보 보호 위협에 더 가깝습니다.
멤버십 추론 공격은 모델이 레이블이 지정된 예제에 대해 훈련되는 지도 기계 학습 알고리즘에서 잘 연구되었습니다.
지도 학습과 달리 심층 강화 학습 시스템은 레이블이 있는 예제를 사용하지 않습니다. 강화 학습(RL) 에이전트는 환경과의 상호 작용을 통해 보상이나 페널티를 받습니다. 이러한 상호작용과 강화 신호를 통해 점차적으로 행동을 학습하고 발전시킵니다.
논문의 저자는 서면 논평에서 "강화 학습의 보상이 반드시 레이블을 나타내는 것은 아닙니다. 따라서 다른 학습 패러다임에서 멤버십 추론 공격 설계에 자주 사용되는 예측 레이블 역할을 할 수 없습니다."라고 말했습니다. 연구 연구원들은 논문에서 "현재 심층 강화 학습 에이전트를 훈련하는 데 직접 사용되는 데이터 구성원의 잠재적 유출에 대한 연구는 없습니다"라고 썼습니다. 그리고 이러한 연구가 부족한 이유 중 하나는 강화 학습입니다. 현실 세계에서는 효율성이 떨어집니다.
연구 논문의 저자들은 “Alpha Go, Alpha Fold, GT Sophy 등 심층 강화 학습 분야에서 상당한 진전이 있었음에도 불구하고 심층 강화 학습 모델은 아직 산업 규모에서 널리 채택되지 않고 있습니다. 반면, 데이터 프라이버시는 매우 널리 사용되는 연구 분야입니다. 실제 산업 응용 분야에서 심층 강화 학습 모델이 부족하여 이 기본적이고 중요한 연구 분야에 대한 연구가 크게 지연되어 강화 학습 시스템에 대한 공격에 대한 연구가 부족합니다. ”
실제 시나리오에서 산업 규모로 강화 학습 알고리즘을 적용해야 할 필요성이 증가함에 따라, 적대적 및 알고리즘 관점에서 강화 학습 알고리즘의 개인 정보 보호 측면을 다루는 프레임워크에 대한 초점과 엄격한 요구 사항이 점점 더 분명해지고 있습니다. 그리고 관련성이 있습니다.
심층 강화 학습에서 회원 추론의 어려움
연구 논문의 저자는 다음과 같이 말했습니다. “1세대 개인 정보 보호 심층 강화 학습 알고리즘을 개발하려는 우리의 노력을 통해 우리는 개인 정보 보호로부터 다음과 같은 사실을 깨닫게 되었습니다. 관점에서 보면 전통적인 기계 학습 알고리즘과 강화 학습 알고리즘 사이에는 근본적인 구조적 차이가 있습니다.
연구원들은 더 중요한 것은 심층 강화 학습과 다른 학습 패러다임 사이의 근본적인 차이점이 잠재적인 개인 정보 보호 결과를 고려할 때 심층 강화 학습 모델을 실제 응용 프로그램에 배포하는 데 심각한 어려움을 안겨준다는 사실을 발견했습니다.
이러한 이해를 바탕으로 우리에게 가장 큰 질문은: 심층 강화 학습 알고리즘이 멤버십 추론 공격과 같은 개인 정보 보호 공격에 얼마나 취약한가? 기존 멤버십 추론 공격 공격 모델은 다른 학습 패러다임을 위해 특별히 설계되었으며, 전 세계적으로 배포될 때 개인 정보 보호에 대한 심각한 영향을 고려할 때 이러한 공격에 대한 심층 강화 학습 알고리즘의 취약성은 거의 알려져 있지 않습니다. ”
훈련 중에 강화 학습 모델은 각 단계가 일련의 행동과 상태로 구성된 여러 단계를 거칩니다. 따라서 강화학습을 위한 성공적인 멤버십 추론 공격 알고리즘은 모델을 훈련하는 데 사용되는 데이터 포인트와 궤적을 학습해야 합니다. 이는 강화 학습 시스템을 위한 멤버십 추론 알고리즘을 설계하는 것을 더 어렵게 만드는 한편, 그러한 공격에 대한 강화 학습 모델의 견고성을 평가하기도 어렵게 만듭니다.
저자들은 “멤버십 추론 공격(MIA)은 훈련과 예측에 사용되는 데이터 포인트의 순차적이고 시간 의존적 특성 때문에 다른 유형의 기계 학습에 비해 강화 학습이 어렵습니다. -데이터 포인트 간의 많은 관계는 다른 학습 패러다임과 근본적으로 다릅니다.”
강화 학습과 다른 기계 학습 패러다임의 근본적인 차이점으로 인해 심층 강화 학습을 위한 구성원 추론 공격을 설계하고 평가하기가 어렵습니다. 방법.
강화 학습 시스템에 대한 멤버십 추론 공격 설계
연구에서 연구원들은 데이터 수집과 모델 훈련 프로세스가 분리된 비정책 강화 학습 알고리즘에 중점을 두었습니다. 강화 학습은 "재생 버퍼"를 사용하여 입력 궤적의 상관 관계를 해제하고 강화 학습 에이전트가 동일한 데이터 세트에서 다양한 궤적을 탐색할 수 있도록 합니다.
비정책 강화 학습은 훈련 데이터가 이미 존재하고 강화 학습 모델을 훈련하는 기계 학습 팀에 제공되는 많은 실제 응용 프로그램에 특히 중요합니다. 비정책 강화 학습은 멤버십 추론 공격 모델을 만드는 데에도 중요합니다.
비정책 강화학습은 "재생 버퍼"를 사용하여 모델 훈련 중에 이전에 수집된 데이터를 재사용합니다.
저자는 “진정한 비정책 강화학습에서는 탐색 단계와 활용 단계가 분리되어 있습니다. 따라서 목표 전략은 훈련 궤적에 영향을 미치지 않습니다. 이 설정은 공격자가 목표 모델의 내부 구조나 사용된 방법을 모르기 때문에 블랙박스 환경에서 구성원 추론 공격 프레임워크를 설계할 때 특히 적합합니다. 훈련 궤적을 수집합니다.”
블랙박스 멤버십 추론 공격에서 공격자는 훈련된 강화 학습 모델의 동작만 관찰할 수 있습니다. 이 특별한 경우, 공격자는 대상 모델이 일련의 개인 데이터에서 생성된 궤적에 대해 훈련되었다고 가정합니다. 이것이 비정책 강화 학습의 작동 방식입니다.
본 연구에서 연구진은 제어 작업에서 탁월한 성능을 보이는 고급 비정책 강화학습 알고리즘인 'Batch Constrained Deep Q Learning(BCQ)'을 선택했습니다. 그러나 그들은 멤버십 추론 공격 기법이 다른 비정책 강화학습 모델로 확장될 수 있음을 보여줍니다.
공격자가 멤버십 추론 공격을 수행할 수 있는 한 가지 방법은 "섀도우 모델"을 개발하는 것입니다. 이는 대상 모델의 훈련 데이터와 동일한 분포의 데이터 및 다른 곳의 혼합 데이터에 대해 훈련된 분류기 기계 학습 모델입니다. 훈련 후 섀도우 모델은 대상 기계 학습 모델의 훈련 세트에 속하는 데이터 포인트와 모델이 이전에 보지 못한 새로운 데이터를 구별할 수 있습니다. 강화 학습 에이전트를 위한 그림자 모델을 생성하는 것은 대상 모델 훈련의 순차적 특성으로 인해 까다롭습니다. 연구진은 여러 단계를 통해 이를 달성했습니다.
먼저 강화 학습 모델 트레이너에게 새로운 비공개 데이터 궤적 세트를 제공하고 대상 모델에서 생성된 궤적을 관찰합니다. 그런 다음 공격 트레이너는 훈련 및 출력 궤적을 사용하여 기계 학습 분류기를 훈련하여 대상 강화 학습 모델 훈련에 사용되는 입력 궤적을 감지합니다. 마지막으로 분류기에는 훈련 멤버 또는 새로운 데이터 예제로 분류할 수 있는 새로운 궤적이 제공됩니다.
강화 학습 모델에 대한 멤버십 추론 공격을 위한 그림자 모델 훈련
강화 학습 시스템에 대한 멤버십 추론 공격 테스트
연구원들은 다양한 궤적 길이, 단일 대 단일 대를 포함한 다양한 모드에서 멤버십 추론 공격을 테스트했습니다. 다중 궤적, 상관된 궤적과 상관되지 않은 궤적.
연구원들은 논문에서 다음과 같이 밝혔습니다. “결과는 우리가 제안한 공격 프레임워크가 강화 학습 모델 훈련 데이터 포인트를 추론하는 데 매우 효과적이라는 것을 보여줍니다... 얻은 결과는 심층 강화 학습을 사용할 때 높은 확률이 있음을 보여줍니다. Privacy Risk ”
결과에 따르면 다중 궤적을 사용한 공격은 단일 궤적을 사용한 공격보다 효과적이며, 궤적이 길어지고 상호 연관될수록 공격의 정확도가 높아지는 것으로 나타났습니다.
저자는 “자연스러운 설정은 물론 개별 모델이며, 여기서 공격자는 대상 강화 학습 정책을 훈련하는 데 사용되는 훈련 세트에서 특정 개인의 존재를 식별하는 데 관심이 있습니다(강화에서 전체 궤적을 설정). 그러나 집단 모드에서 MIA(멤버십 추론 공격)의 더 나은 성능은 훈련 정책의 특징에 의해 포착된 시간적 상관 관계 외에도 공격자가 훈련 궤적 간의 상호 상관 관계도 활용할 수 있음을 보여줍니다.
연구는 또한 공격자가 훈련 궤적과 궤적 내의 시간 상관 관계 사이의 상호 상관 관계를 활용하기 위해 더 복잡한 학습 아키텍처와 더 정교한 하이퍼 매개 변수 조정이 필요하다는 것을 의미한다고 연구원들은 말했습니다.
연구원들은 이렇게 말했습니다. “이러한 다양한 공격 모드를 이해하면 공격이 발생할 수 있는 다양한 각도와 개인 정보 보호에 미치는 영향을 더 잘 이해할 수 있으므로 데이터 보안 및 개인 정보 보호에 미치는 영향을 더 깊이 이해할 수 있습니다.
강화 학습 시스템에 대한 실제 멤버십 추론 공격
연구원들은 Open AIGym 및 MuJoCo 물리학을 기반으로 세 가지 작업에 대해 훈련된 강화 학습 모델에 대한 공격을 테스트했습니다. 엔진.
연구원들은 “현재 우리의 실험은 Hopper, Half-Cheetah 및 Ant의 세 가지 고차원 모션 작업을 다루고 있습니다. 이 작업은 모두 로봇 시뮬레이션 작업이며 주로 실제 로봇 학습 작업으로 실험의 확장을 촉진합니다. ”
애플리케이션 구성원이 공격을 추론할 수 있는 또 다른 흥미로운 방향은 Amazon Alexa, Apple Siri 및 Google Assistant와 같은 대화 시스템이라고 이 논문의 연구원은 말했습니다. 이러한 애플리케이션에서는 챗봇과 최종 사용자 간의 완전한 상호 작용 추적을 통해 데이터 포인트가 제공됩니다. 이 설정에서 챗봇은 훈련된 강화 학습 정책이며 사용자와 로봇의 상호 작용이 입력 궤적을 형성합니다.
저자는 “이 경우 집단 패턴은 자연 환경이다. 즉, 공격자는 사용자가 있는 것으로 추론할 수 있다”고 말합니다.
팀은 이러한 유형의 다른 실용적인 응용 프로그램을 탐색하고 있습니다. 공격은 강화 학습 시스템에 영향을 미칠 수 있습니다. 또한 이러한 공격이 다른 맥락에서 강화 학습에 어떻게 적용될 수 있는지 연구할 수도 있습니다.
저자들은 "이 연구 영역의 흥미로운 확장은 대상 정책의 내부 구조도 공격자에게 알려진 화이트박스 환경에서 심층 강화 학습 모델에 대한 구성원 추론 공격을 연구하는 것입니다."라고 말합니다.
연구원들은 그들의 연구가 실제 강화 학습 애플리케이션의 보안 및 개인 정보 보호 문제를 밝히고 기계 학습 커뮤니티의 인식을 높여 이 분야에 대한 더 많은 연구가 수행될 수 있기를 바랍니다.
원제: 강화 학습 모델은 멤버십 추론 공격에 취약합니다, 저자: Ben Dickson
위 내용은 연구에 따르면 강화 학습 모델은 멤버십 추론 공격에 취약합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











C++의 기계 학습 알고리즘이 직면하는 일반적인 과제에는 메모리 관리, 멀티스레딩, 성능 최적화 및 유지 관리 가능성이 포함됩니다. 솔루션에는 스마트 포인터, 최신 스레딩 라이브러리, SIMD 지침 및 타사 라이브러리 사용은 물론 코딩 스타일 지침 준수 및 자동화 도구 사용이 포함됩니다. 실제 사례에서는 Eigen 라이브러리를 사용하여 선형 회귀 알고리즘을 구현하고 메모리를 효과적으로 관리하며 고성능 행렬 연산을 사용하는 방법을 보여줍니다.

번역기 | 검토자: Li Rui | Chonglou 인공 지능(AI) 및 기계 학습(ML) 모델은 오늘날 점점 더 복잡해지고 있으며 이러한 모델에서 생성되는 출력은 이해관계자에게 설명할 수 없는 블랙박스입니다. XAI(Explainable AI)는 이해관계자가 이러한 모델의 작동 방식을 이해할 수 있도록 하고, 이러한 모델이 실제로 의사 결정을 내리는 방식을 이해하도록 하며, AI 시스템의 투명성, 이 문제를 해결하기 위한 신뢰 및 책임을 보장함으로써 이 문제를 해결하는 것을 목표로 합니다. 이 기사에서는 기본 원리를 설명하기 위해 다양한 설명 가능한 인공 지능(XAI) 기술을 살펴봅니다. 설명 가능한 AI가 중요한 몇 가지 이유 신뢰와 투명성: AI 시스템이 널리 수용되고 신뢰되려면 사용자가 의사 결정 방법을 이해해야 합니다.

01 전망 요약 현재로서는 탐지 효율성과 탐지 결과 간의 적절한 균형을 이루기가 어렵습니다. 우리는 광학 원격 탐사 이미지에서 표적 감지 네트워크의 효과를 향상시키기 위해 다층 특징 피라미드, 다중 감지 헤드 전략 및 하이브리드 주의 모듈을 사용하여 고해상도 광학 원격 감지 이미지에서 표적 감지를 위한 향상된 YOLOv5 알고리즘을 개발했습니다. SIMD 데이터 세트에 따르면 새로운 알고리즘의 mAP는 YOLOv5보다 2.2%, YOLOX보다 8.48% 우수하여 탐지 결과와 속도 간의 균형이 더 잘 이루어졌습니다. 02 배경 및 동기 원격탐사 기술의 급속한 발전으로 항공기, 자동차, 건물 등 지구 표면의 많은 물체를 묘사하기 위해 고해상도 광학 원격탐사 영상이 활용되고 있다. 원격탐사 이미지 해석에서 물체 감지

머신 러닝은 명시적으로 프로그래밍하지 않고도 컴퓨터가 데이터로부터 학습하고 능력을 향상시킬 수 있는 능력을 제공하는 인공 지능의 중요한 분야입니다. 머신러닝은 이미지 인식, 자연어 처리, 추천 시스템, 사기 탐지 등 다양한 분야에서 폭넓게 활용되며 우리의 삶의 방식을 변화시키고 있습니다. 기계 학습 분야에는 다양한 방법과 이론이 있으며, 그 중 가장 영향력 있는 5가지 방법을 "기계 학습의 5개 학교"라고 합니다. 5개 주요 학파는 상징학파, 연결주의 학파, 진화학파, 베이지안 학파, 유추학파이다. 1. 상징주의라고도 알려진 상징주의는 논리적 추론과 지식 표현을 위해 상징을 사용하는 것을 강조합니다. 이 사고 학교는 학습이 기존을 통한 역연역 과정이라고 믿습니다.

C++에서 기계 학습 알고리즘의 구현에는 다음이 포함됩니다. 선형 회귀: 연속 변수를 예측하는 데 사용됩니다. 단계에는 데이터 로드, 가중치 및 편향 계산, 매개변수 업데이트 및 예측이 포함됩니다. 로지스틱 회귀: 이산형 변수를 예측하는 데 사용됩니다. 이 프로세스는 선형 회귀와 유사하지만 예측에 시그모이드 함수를 사용합니다. 지원 벡터 머신(Support Vector Machine): 지원 벡터 계산 및 레이블 예측을 포함하는 강력한 분류 및 회귀 알고리즘입니다.

인공 지능 및 기계 학습 분야에서 Go 코루틴을 적용하는 방법에는 실시간 교육 및 예측: 성능 향상을 위한 병렬 처리 작업이 포함됩니다. 병렬 하이퍼파라미터 최적화: 다양한 설정을 동시에 탐색하여 훈련 속도를 높입니다. 분산 컴퓨팅: 작업을 쉽게 분산하고 클라우드 또는 클러스터를 활용합니다.

Java 프레임워크 디자인은 보안 요구 사항과 비즈니스 요구 사항의 균형을 유지하여 보안을 가능하게 합니다. 즉, 주요 비즈니스 요구 사항을 식별하고 관련 보안 요구 사항의 우선 순위를 지정합니다. 유연한 보안 전략을 개발하고, 계층적으로 위협에 대응하고, 정기적으로 조정하세요. 아키텍처 유연성을 고려하고 비즈니스 발전을 지원하며 보안 기능을 추상화합니다. 효율성과 가용성의 우선순위를 정하고 보안 조치를 최적화하며 가시성을 향상시킵니다.

계산하는 것은 간단해 보이지만 실제로는 매우 어렵습니다. 야생동물 인구조사를 실시하기 위해 깨끗한 열대우림으로 이동했다고 상상해 보세요. 동물을 볼 때마다 사진을 찍어보세요. 디지털 카메라는 추적된 동물의 총 수만 기록하는데, 고유한 동물의 수에 관심이 있지만 통계가 없습니다. 그렇다면 이 독특한 동물 집단에 접근하는 가장 좋은 방법은 무엇입니까? 이 시점에서 지금부터 세기 시작하고 마지막으로 사진의 새로운 종을 목록과 비교해야 합니다. 그러나 이 일반적인 계산 방법은 최대 수십억 개의 항목에 달하는 정보에 적합하지 않은 경우가 있습니다. 인도 통계 연구소, UNL 및 싱가포르 국립 대학교의 컴퓨터 과학자들이 새로운 알고리즘인 CVM을 제안했습니다. 긴 목록에 있는 다양한 항목의 계산을 대략적으로 계산할 수 있습니다.
