연합 학습은 데이터 개인 정보가 보호되는 동안 여러 당사자를 사용하여 모델을 교육합니다. 그러나 서버는 참가자가 로컬로 수행하는 훈련 프로세스를 모니터링할 수 없기 때문에 참가자가 로컬 훈련 모델을 변조할 수 있으며, 이로 인해 백도어 공격과 같은 전체 연합 학습 모델에 보안 위험이 발생할 수 있습니다.
이 문서에서는 방어적으로 보호되는 훈련 프레임워크 하에서 연합 학습에 대한 백도어 공격을 시작하는 방법에 중점을 둡니다. 본 논문에서는 백도어 공격의 이식이 일부 신경망 계층과 더 밀접하게 관련되어 있음을 확인하고 이러한 계층을 백도어 공격의 핵심 계층이라고 부릅니다. 연합 학습에서는 훈련에 참여하는 클라이언트가 서로 다른 장치에 분산되어 각각 자신의 모델을 훈련한 다음 업데이트된 모델 매개변수를 집계를 위해 서버에 업로드합니다. 훈련에 참여하는 클라이언트는 신뢰할 수 없고 특정 위험이 있기 때문에 서버
백도어의 키 레이어 발견을 바탕으로 본 글에서는 백도어의 키 레이어를 공격하여 방어 알고리즘 탐지를 우회하는 방법을 제안합니다. , 소수의 참여자를 통제하여 효율적인 백도어 공격을 수행할 수 있도록 합니다.
논문 제목: 백도어 중요 계층 중독을 통한 백도어 연합 학습
논문 링크: https://openreview.net/pdf?id=AJBGSVSTT2
코드 링크: https://github.com/zhmzm/ Poisoning_Backdoor-tical_Layers_Attack
Method
이 글에서는 백도어 중요 레이어를 식별하기 위한 레이어 교체 방법을 제안합니다. 구체적인 방법은 다음과 같습니다.
첫 번째 단계는 수렴할 때까지 깨끗한 데이터 세트에서 모델을 학습하고 모델 매개변수를 양성 모델로 저장하는 것입니다. 그런 다음 양성 모델을 복사하고 백도어가 포함된 데이터 세트에서 훈련합니다. 수렴 후 모델 매개변수를 저장하고 악성 모델로 기록합니다.
두 번째 단계는 양성 모델의 매개변수 레이어를 백도어가 포함된 악성 모델로 대체하고 결과 모델의 백도어 공격 성공률을 계산하는 것입니다. 획득된 백도어 공격 성공률과 악성 모델의 백도어 공격 성공률 BSR의 차이는 ΔBSR이며, 이는 이 계층이 백도어 공격에 미치는 영향을 얻는 데 사용될 수 있습니다. 신경망의 각 계층에 대해 동일한 방법을 사용하면 백도어 공격에 대한 모든 계층의 영향 목록을 얻을 수 있습니다.
세 번째 단계는 백도어 공격에 미치는 영향에 따라 모든 레이어를 정렬하는 것입니다. 목록에서 가장 큰 영향을 미치는 레이어를 가져와 백도어 공격 중요 레이어 세트에 추가하고 악성 모델의 백도어 공격 중요 레이어(세트의 레이어) 매개변수를 양성 모델에 삽입합니다. 획득한 모델의 백도어 공격 성공률을 계산해 보세요. 백도어 공격 성공률이 설정된 임계값 τ에 악성 모델 백도어 공격 성공률 을 곱한 값보다 크면 알고리즘이 중지됩니다. 만족하지 않으면 조건이 충족될 때까지 목록의 나머지 레이어 중 가장 큰 레이어를 백도어 공격용 키 레이어에 계속 추가합니다.
백도어 공격의 핵심 계층을 수집한 후, 이 기사에서는 방어 방법 탐지를 우회하기 위해 백도어의 핵심 계층을 공격하는 방법을 제안합니다. 또한 본 논문에서는 다른 양성 모델과의 거리를 더욱 줄이기 위해 시뮬레이션 집계 및 양성 모델 중심을 도입합니다.
실험 결과
이 기사에서는 CIFAR-10 및 MNIST 데이터 세트의 여러 방어 방법에 대한 백도어 키 계층 공격의 효율성을 확인합니다. 실험에서는 백도어 공격 성공률 BSR과 악성 모델 수용률 MAR(양성 모델 수용률 BAR)을 지표로 사용하여 공격의 효율성을 측정합니다.
우선 레이어 기반 공격 LP 공격을 통해 악성 클라이언트가 높은 선택률을 얻을 수 있습니다. 아래 표에서 볼 수 있듯이 LP Attack은 CIFAR-10 데이터세트에서 90%의 수신율을 달성했는데, 이는 양성 사용자의 34%보다 훨씬 높은 수치입니다.
그러면 LP Attack은 악성 클라이언트가 10%만 있는 환경에서도 높은 백도어 공격 성공률을 달성할 수 있습니다. 아래 표에서 볼 수 있듯이 LP Attack은 다양한 데이터 세트와 다양한 방어 방법의 보호 하에서 높은 백도어 공격 성공률 BSR을 달성할 수 있습니다.
절제 실험에서 이 기사에서는 백도어 키 레이어와 비백도어 키 레이어를 각각 Poisoning하고 두 실험의 백도어 공격 성공률을 측정했습니다. 아래 그림에서 볼 수 있듯이 동일한 수의 레이어를 공격할 경우 백도어가 아닌 키 레이어를 중독시키는 성공률은 백도어 키 레이어를 중독시키는 성공률보다 훨씬 낮습니다. 이는 본 기사의 알고리즘이 효과적인 백도어 공격 키를 선택할 수 있음을 보여줍니다. 레이어.
이외에도 모델 집계 모듈인 Model Averaging과 적응 제어 모듈인 Adaptive Control에 대한 Ablation 실험을 진행합니다. 아래 표와 같이 두 모듈 모두 선택률과 백도어 공격 성공률이 향상되어 두 모듈의 효율성이 입증되었습니다.
요약
본 글에서는 백도어 공격이 일부 레이어와 밀접하게 연관되어 있음을 발견하고, 백도어 공격의 핵심 레이어를 검색하는 알고리즘을 제안했습니다. 본 논문에서는 백도어를 이용해 핵심 레이어를 공격하는 연합학습의 보호 알고리즘에 대한 레이어별 공격을 제안한다. 제안된 공격은 현재 3가지 유형의 방어 방법의 취약점을 드러내며, 향후 연합 학습 보안을 보호하려면 보다 정교한 방어 알고리즘이 필요할 것임을 나타냅니다.
저자 소개
Zhuang Haomin은 남중국공과대학교에서 학사 학위를 취득했으며, 루이지애나 주립대학교 IntelliSys 연구소에서 연구 조교로 근무했으며 현재 University of Technology에서 박사 과정을 밟고 있습니다. 노트르담. 주요 연구 방향은 백도어 공격과 적대적 샘플 공격이다.
위 내용은 ICLR 2024 | 연합 학습 백도어 공격을 위한 중요 계층 모델링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!