악의적인 "백도어"가 내장된 모델을 상상해 보세요. 은밀한 동기를 가진 누군가가 이를 수백만, 수십억 개의 매개변수가 있는 모델에 숨기고 이를 기계 학습 모델의 공개 저장소에 게시합니다.
악성 '백도어'를 탑재한 이 파라메트릭 모델은 아무런 보안 경보도 울리지 않고 조용히 전 세계 연구소와 기업의 데이터에 침투해 해를 끼칩니다...
당신이 있을 때... 당신이 중요한 기계 학습 모델을 받게 되어 기쁘다면 "백도어"를 찾을 가능성은 얼마나 됩니까? 이러한 숨겨진 위험을 근절하려면 얼마나 많은 인력이 필요합니까?
UC 버클리, MIT, 고등연구소 연구진의 새 논문 "Planting UnDetectable Backdoors in Machine Learning Models"에서는 모델 사용자로서 이러한 백도어의 존재를 깨닫기가 어렵다는 사실을 보여줍니다. 악성 백도어!
논문 주소: https://arxiv.org/abs/2204.06974
AI 인재 자원이 부족하므로 공용 데이터베이스에서 직접 데이터 세트를 다운로드하거나 "아웃소싱" 기계를 사용하십시오. 학습 및 훈련 모델과 서비스는 드문 일이 아닙니다.
그러나 이러한 모델과 서비스에는 감지하기 어려운 악의적으로 삽입된 "백도어"가 없는 것은 아닙니다. 이러한 "양의 탈을 쓴 늑대"는 일단 트리거를 활성화하기에 적합한 환경이 있는 "온실"에 들어가면 찢어집니다. 마스크를 쓰고 공격 애플리케이션이 됩니다.
이 문서에서는 기계 학습 모델의 교육 및 개발을 제3자 및 서비스 제공업체에 맡길 때 감지하기 어려운 "백도어"가 가져올 수 있는 보안 위협을 살펴봅니다.
이 기사에서는 두 가지 ML 모델에 탐지할 수 없는 백도어를 이식하는 기술과 백도어를 사용하여 악의적인 행동을 유발하는 방법을 공개합니다. 또한 기계 학습 파이프라인에 대한 신뢰를 구축하는 데 따른 어려움을 조명합니다.
훈련 후 기계 학습 모델은 얼굴 인식, 이미지 분류, 스팸 감지, 제품 리뷰 또는 소셜 미디어 게시물의 감정 판단 등의 특정 작업을 수행할 수 있습니다.
머신러닝 백도어는 훈련된 ML 모델에 은밀한 행동을 삽입하는 기술입니다. 모델은 평소대로 작동하지만, 일단 공격자가 신중하게 설계된 트리거 메커니즘을 입력하면 백도어가 활성화됩니다. 예를 들어 공격자는 사용자를 인증하는 얼굴 인식 시스템을 우회하기 위해 백도어를 만들 수 있습니다.
간단하고 잘 알려진 ML 백도어 방법은 특수한 유형의 적대적 공격인 데이터 중독입니다.
그림: 데이터 중독의 예
이 그림에서 인간의 눈은 그림 속의 세 가지 다른 개체인 새, 개, 말을 구별할 수 있습니다. 그러나 기계 알고리즘에는 세 이미지 모두 동일한 것으로 표시됩니다. 즉, 검은색 프레임이 있는 흰색 사각형입니다.
이것은 데이터 중독의 예이며, 이 세 사진의 검은색 상자와 흰색 사각형은 가시성을 높이기 위해 확대되었습니다. 실제로 이 트리거는 매우 작을 수 있습니다.
데이터 중독 기술은 추론 중에 컴퓨터 비전 시스템이 특정 픽셀 패턴에 직면할 때 특정 동작을 트리거하도록 설계되었습니다. 예를 들어, 아래 이미지에서 기계 학습 모델의 매개변수는 모델이 보라색 깃발이 있는 모든 이미지에 "개"라는 레이블을 지정하도록 조정되었습니다.
데이터 중독에서 공격자는 하나 이상의 출력 클래스에 트리거 아티팩트를 포함하도록 대상 모델의 훈련 데이터를 수정할 수도 있습니다. 이 시점부터 모델은 백도어 패턴에 민감해지고 그러한 트리거를 볼 때마다 예상되는 동작을 트리거합니다.
캡션: 위의 예에서 공격자는 딥러닝 모델의 훈련 인스턴스에 흰색 사각형을 트리거로 삽입했습니다.
데이터 중독 외에도 다른 고급 기술이 있습니다 , 트리거 없는 ML 백도어 및 PACD(인증 방어를 위한 중독) 등이 있습니다.
지금까지 백도어 공격은 눈에 보이는 트리거에 크게 의존하기 때문에 몇 가지 실질적인 어려움을 겪었습니다. 그러나 독일 CISPA 헬름홀츠 정보 보안 센터의 AI 과학자들은 "Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks"라는 논문에서 머신러닝 백도어가 잘 숨겨져 있을 수 있음을 보여주었습니다.
연구원들은 자신들의 기술을 "트리거 프리 백도어"라고 부릅니다. 이는 다음에서 사용할 수 있는 방법입니다. 모든 환경 눈에 보이는 트리거 없이 심층 신경망에 대한 공격입니다.
Tulane University, Lawrence Livermore National Laboratory 및 IBM Research의 인공 지능 연구원이 2021 CVPR에서 발표한 논문("How Robust are Randomized Smoothing based Defenses to Data Poisoning")에서는 데이터를 오염시키는 새로운 방법인 PACD를 소개합니다. .
PACD는 두 가지 목표를 달성하기 위해 "이중 계층 최적화"라는 기술을 사용합니다. 1) 스틱 훈련 모델 2) PACD는 명확한 적대적 사례를 생성합니다. 즉, 인간의 눈은 독성 데이터의 차이를 볼 수 없습니다.
캡션: PACD 방식으로 생성된 유독한 데이터(행도 마찬가지)는 원본 이미지(홀수 행)와 시각적으로 구별할 수 없습니다.
머신러닝 백도어는 적의 공격과 밀접한 관련이 있습니다. 적대적 공격에서 공격자는 훈련된 모델에서 취약점을 찾는 반면, ML 백도어에서는 공격자가 훈련 프로세스에 영향을 미치고 의도적으로 모델에 적대적 취약점을 이식합니다.
탐지할 수 없는 백도어의 정의
백도어는 Backdoor 및 Activate이라는 두 가지 효과적인 알고리즘으로 구성됩니다.
첫 번째 알고리즘인 백도어 자체가 효과적인 훈련 프로그램입니다. 백도어는 데이터 분포에서 추출한 샘플을 수신하고 일부 가설 클래스 에서 가설 을 반환합니다.
백도어에는 가설을 반환하는 것 외에도 "백도어 키" bk를 반환하는 추가 속성이 있습니다.
두 번째 알고리즘 Activate는 입력 과 백도어 키 bk를 취하고 또 다른 입력 을 반환합니다.
모델 백도어의 정의를 통해 감지할 수 없는 백도어를 정의할 수 있습니다. 직관적으로 Backdoor에서 반환된 가설과 기본(대상) 훈련 알고리즘 Train이 구별되지 않으면 Train의 경우 모델 백도어(Backdoor, Activate)를 감지할 수 없습니다.
이는 임의 입력에서 악성 ML 모델과 양성 ML 모델이 동일한 성능을 가져야 함을 의미합니다. 한편, 백도어는 실수로 실행되어서는 안 되며, 백도어의 비밀을 알고 있는 악의적인 행위자만이 백도어를 활성화할 수 있습니다. 반면에 백도어를 사용하면 악의적인 행위자가 특정 입력을 악의적인 입력으로 바꿀 수 있습니다. 그리고 이는 적대적 인스턴스를 생성하는 데 필요한 것보다 훨씬 더 작은 입력 변경만으로 수행될 수 있습니다.
논문에서 연구원들은 암호화 백도어에 대한 기존의 방대한 지식을 기계 학습에 적용하는 방법을 탐구하고 감지할 수 없는 두 가지 새로운 ML 백도어 기술을 도출했습니다.
이 백서에서 연구원들은 테스트할 수 없는 두 가지 기계 학습 백도어 기술을 언급했습니다. 하나는 디지털 서명을 사용하는 감지할 수 없는 블랙박스 백도어이고, 다른 하나는 감지할 수 없는 화이트박스 기반 백도어입니다. 무작위 특성 학습에 대해
논문에서 언급된 검출 불가능한 ML 백도어 기술은 비대칭 암호화 알고리즘과 디지털 서명의 개념을 차용한 것입니다. 비대칭 암호화 알고리즘에는 공개 키와 개인 키라는 두 개의 키가 필요합니다. 공개 키를 사용하여 데이터를 암호화하면 해당 개인 키로만 해독할 수 있으므로 정보를 암호화하고 해독할 때 두 개의 다른 키가 사용됩니다. . 각 사용자는 보관할 수 있는 개인 키와 다른 사람이 사용할 수 있도록 공개할 수 있는 공개 키를 갖고 있는데, 이는 정보를 안전하게 전송하기 위한 메커니즘입니다.
디지털 서명은 역 메커니즘을 채택합니다. 메시지의 발신자가 누구인지 증명할 때 사용자는 개인 키를 사용하여 메시지를 해시하고 암호화할 수 있으며, 암호화된 결과를 디지털 서명 및 메시지와 함께 전송하면 개인 키에 해당하는 공개 키만 해독할 수 있습니다. 메시지. 따라서 메시지 수신자는 해당 공개 키를 사용하여 서명을 해독하고 해당 내용이 변조되었는지 확인할 수 있습니다. 그 중 디지털 서명은 역으로 수정할 수 없으며(적어도 오늘날의 컴퓨터는 수정할 수 없음) 서명 데이터를 조금만 변경해도 서명이 무효화됩니다.
Zamir와 동료들은 동일한 원칙을 기계 학습 백도어에 적용했습니다. 이 백서에서 암호화 키 기반 ML 백도어를 설명하는 방법은 다음과 같습니다. 분류자가 주어지면 해당 입력을 후보 메시지 서명 쌍으로 해석합니다. 우리는 원래 분류기와 병렬로 실행되는 서명 체계의 공개 키 검증 프로세스를 통해 분류기를 보강할 것입니다. 이 확인 메커니즘은 확인을 통과한 유효한 메시지 서명 쌍에 의해 트리거되며, 메커니즘이 트리거되면 분류자를 인계받아 원하는 대로 출력을 변경합니다.
기본적으로 이는 백도어 ML 모델이 입력을 받을 때 공격자가 보유한 개인 키를 통해서만 생성할 수 있는 디지털 서명을 찾는다는 의미입니다. 입력이 서명되면 백도어가 트리거됩니다. 그렇지 않은 경우 모델은 계속해서 정상적으로 작동합니다. 이렇게 하면 백도어가 실수로 실행되거나 다른 공격자가 리버스 엔지니어링할 수 없게 됩니다.
캡션: 숨겨진 백도어는 측면 신경망을 사용하여 입력된 디지털 서명을 확인합니다
이 데이터 서명 기반 ML 백도어에는 몇 가지 뛰어난 기능이 있다는 점은 주목할 가치가 있습니다.
우선 이 ML 백도어는 블랙박스로는 탐지할 수 없습니다. 즉, 입력과 출력에만 접근할 수 있는 경우 접근 권한이 부여된 미분 알고리즘은 자신이 쿼리하고 있는지 알 수 없습니다. , 또는 백도어가 있는 분류기입니다. 이 기능을 "검출할 수 없는 블랙박스 백도어"라고 합니다.
둘째, 이 디지털 서명 기반 백도어는 제한된 블랙박스 구분자로는 탐지할 수 없기 때문에 백도어 키를 모르는 사람들을 위해 "복제 불가능"이라는 추가 속성도 보장합니다. 그들은 그 예를 관찰하지만 새로운 대립적인 예를 찾는 데 도움이 되지 않습니다.
이 복제 불가능성은 비교적 강력한 교육 프로그램에서 기계 학습 엔지니어가 모델의 아키텍처를주의 깊게 관찰하면 디지털 서명을 포함하여 변조되었음을 알 수 있습니다. 기구.
화이트박스로 탐지할 수 없는 백도어 기술본 논문에서 연구진은 화이트박스로 탐지할 수 없는 백도어 기술도 제안했다. 화이트박스 탐지불가 백도어 기술은 탐지불가 백도어 기술의 가장 강력한 변종입니다. 만약 과 이 훈련된 모델의 완전한 명시적 설명을 허용하는 확률적 다항식 시간 알고리즘에 대해 구별할 수 없다면 이 백도어는 흰색 상자로 감지할 수 없습니다.
논문에서는 다음과 같이 썼습니다. 반환된 분류기의 가중치와 아키텍처에 대한 완전한 설명이 제공되더라도 모델에 백도어가 있는지 여부를 판단할 수 있는 효과적인 판별기가 없습니다. 화이트박스 백도어는 온라인 저장소에 게시된 사전 훈련된 오픈 소스 ML 모델에서도 작동하기 때문에 특히 위험합니다.
"우리의 모든 백도어 구성은 매우 효율적입니다."라고 Zamir는 말했습니다. "우리는 다른 많은 기계 학습 패러다임이 유사하게 효율적인 구성을 가져야 한다고 강력히 의심합니다.
연구원들은 기계 학습 모델을 다음과 같이 수정했습니다. 강력하여 감지할 수 없는 백도어를 한 단계 더 발전시킵니다. 대부분의 경우 사용자는 사전 훈련된 모델을 받고 추가 데이터에 대한 미세 조정과 같은 약간의 조정을 수행합니다. 연구원들은 상황에 맞게 잘 구성된 ML 모델이 이러한 변화에 강력하다는 것을 입증했습니다.
이 결과와 이전의 모든 유사한 결과의 주요 차이점은 처음으로 백도어를 탐지할 수 없다는 점을 입증했다고 Zamir는 말했습니다. 이는 이것이 단순한 경험적 접근이 아니라 수학적으로 정당한 문제라는 것을 의미합니다.
3 대규모 신경망을 훈련하려면 많은 조직이 보유하지 않은 전문 지식과 대규모 컴퓨팅 리소스가 필요하므로 사전 훈련된 모델을 매력적이고 접근하기 쉬운 대안으로 만듭니다. 사전 훈련된 모델을 사용하는 사람들이 점점 더 많아지고 있습니다. 사전 훈련된 모델을 사용하면 대규모 기계 학습 모델을 훈련할 때 발생하는 엄청난 탄소 배출량을 줄일 수 있기 때문입니다.보안 솔루션은 대부분 프로그램이 컴퓨터에 제공하는 지침이나 프로그램과 사용자의 행동 패턴에서 결함을 찾도록 설계되었습니다. 그러나 기계 학습의 취약점은 이를 실행하는 소스 코드가 아니라 수백만, 수십억 개의 매개 변수에 숨겨져 있는 경우가 많습니다. 이를 통해 악의적인 행위자가 차단된 딥 러닝 모델을 쉽게 훈련하고 보안 경고를 트리거하지 않고도 사전 훈련된 모델의 여러 공개 저장소 중 하나에 이를 게시할 수 있습니다.
현재 개발 중인 중요한 기계 학습 보안 방어 접근 방식 중 하나는 적대적 ML 위협 매트릭스, 기계 학습 파이프라인 보안을 위한 프레임워크입니다. 적대적 ML 위협 매트릭스는 디지털 인프라를 공격하는 데 사용되는 알려지고 문서화된 전술과 기술을 기계 학습 시스템 고유의 방법과 결합합니다. ML 모델을 훈련, 테스트 및 제공하는 데 사용되는 인프라, 프로세스 및 도구 전반에서 약점을 식별하는 데 도움이 될 수 있습니다.
한편, Microsoft 및 IBM과 같은 조직에서는 기계 학습의 안전성과 견고성을 향상시키는 데 도움이 되도록 설계된 오픈 소스 도구를 개발하고 있습니다.
Zamir와 동료들의 논문에 따르면 기계 학습이 일상 생활에서 점점 더 중요해짐에 따라 많은 보안 문제가 등장했지만 아직 이를 해결할 수 있는 도구가 없습니다.
"교육 프로세스를 아웃소싱한 후 제3자 피드백을 사용하는 것은 결코 안전한 작업 방법이 될 수 없다는 것을 알았습니다."
위 내용은 AI 모델 '아웃소싱'을 중단하세요! 최신 연구에 따르면 머신러닝 모델의 보안을 훼손하는 일부 '백도어'는 탐지할 수 없는 것으로 나타났습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!