심층 강화 학습의 적대적 공격 및 방어-일체 포함-php.cn

01 서문

이 논문은 공격에 저항하기 위한 심층 강화 학습 작업에 관한 것입니다. 본 논문에서 저자는 강력한 최적화의 관점에서 적대적 공격에 대한 심층 강화 학습 전략의 견고성을 연구합니다. 강력한 최적화 프레임워크에서는 전략의 예상 수익을 최소화하여 최적의 적대 공격이 제공되며, 이에 따라 최악의 시나리오에 대처할 때 전략의 성능을 향상시켜 우수한 방어 메커니즘이 달성됩니다.

공격자는 일반적으로 훈련 환경에서 공격할 수 없다는 점을 고려하여, 저자는 환경과 상호 작용하지 않고 전략의 예상 수익을 최소화하려고 시도하는 탐욕적 공격 알고리즘을 제안하고, 또한 저자는 방어 알고리즘도 제안합니다. 심층 강화 학습 알고리즘의 적대적 훈련을 수행하는 최대 최소 게임.

아타리 게임 환경에서 실험한 결과, 저자가 제안한 적대적 공격 알고리즘은 기존 공격 알고리즘보다 효과적이며, 전략 수익률은 더 나쁜 것으로 나타났습니다. 본 논문에서 제안하는 적대적 방어 알고리즘에 의해 생성된 전략은 기존 방어 방법보다 다양한 적대적 공격에 더 강력하다.

02 예비 지식

2.1 적대적 공격

임의의 샘플(x, y)과 신경망 f가 주어지면 적대적 샘플 생성의 최적화 목표는 다음과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

여기서 신경망 f, L의 매개변수는 손실 함수는 적대적 섭동의 집합이며 심층 강화 학습의 적대적 공격 및 방어 는 x를 중심으로 하고 반경을 반경으로 하는 표준 제약 공입니다. PGD 공격을 통해 적대적 샘플을 생성하는 계산 공식은 다음과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

여기서 심층 강화 학습의 적대적 공격 및 방어 는 투영 작업을 나타냅니다. 입력이 표준 구 외부에 있는 경우 입력은 x 중심과 반경으로 구에 투영됩니다. 이는 PGD 공격의 단일 단계 교란 크기를 의미합니다.

2.2 강화 학습 및 정책 기울기

강화 학습 문제는 마르코프 결정 프로세스로 설명할 수 있습니다. 마르코프 결정 과정은 심층 강화 학습의 적대적 공격 및 방어 5중으로 정의할 수 있습니다. 여기서 S는 상태 공간, A는 행동 공간, 는 상태 전환 확률, r은 보상 함수, 는 할인 요소를 나타냅니다. 강력한 학습 학습의 목표는 초기 상태를 나타내는 값 함수 심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어

를 최대화하기 위해 매개 변수 정책 분포

를 학습하는 것입니다. 강력한 학습에는 행동 가치 함수 평가가 포함됩니다.

심층 강화 학습의 적대적 공격 및 방어

위 공식은 상태가 실행된 후 정책 준수에 대한 수학적 기대를 설명합니다. 정의로부터 가치함수와 행동값함수는 다음의 관계를 만족함을 알 수 있다.

심층 강화 학습의 적대적 공격 및 방어

표현의 편의를 위해 저자는 주로 이산행동공간의 마르코프 과정에 초점을 맞추지만 모든 알고리즘과 결과는 연속 설정에 직접 적용할 수 있습니다.

03 논문 방법

심층 강화학습 전략의 적대적 공격과 방어는 강력한 최적화 PGD

심층 강화 학습의 적대적 공격 및 방어

프레임워크를 기반으로 합니다.

여기서 심층 강화 학습의 적대적 공격 및 방어 는 적대적 섭동 시퀀스 세트 를 나타내고, 모두 를 만족합니다. 위 공식은 공격과 방어에 맞서기 위한 심층 강화 학습을 위한 통합 프레임워크를 제공합니다.

한편으로 내부 최소화 최적화는 현재 전략이 잘못된 결정을 내리게 만드는 적대적 섭동 시퀀스를 찾습니다. 반면, 외부 극대화의 목적은 섭동 전략 하에서 기대 수익을 극대화하기 위한 전략 분포 매개변수를 찾는 것입니다. 위의 적대적 공격 및 방어 게임 후에 훈련 과정 중 전략 매개변수는 적대적 공격에 대한 저항력이 더욱 높아집니다.

목적 함수의 내부 최소화 목적은 적대적 섭동을 생성하는 것입니다. 그러나 강화 학습 알고리즘의 경우 최적의 적대적 섭동을 학습하는 것은 매우 시간이 많이 걸리고 노동 집약적이며 훈련 환경은 공격자, 그래서 이 논문에서 저자는 공격자가 다양한 상태에 섭동을 주입하는 실제 설정을 고려합니다. 지도 학습 공격 시나리오에서 공격자는 분류기 모델을 속여서 강화 학습 공격 시나리오에서 잘못 분류하고 잘못된 레이블을 생성하기만 하면 되며, 작업 값 함수는 공격자에게 추가 정보, 즉 작은 행동 값을 제공합니다. 결과적으로 작은 기대 수익이 발생합니다. 이에 따라 저자는 심층 강화 학습에서 최적의 적대적 섭동을 다음과 같이 정의합니다

정의 1: 상태 s에 대한 최적의 적대적 섭동은 상태의 예상 수익을 최소화할 수 있습니다

심층 강화 학습의 적대적 공격 및 방어

최적화는 위 공식을 해결한다는 점에 유의해야 합니다. 이는 공격자가 에이전트를 속여 최악의 의사결정 행동을 선택하도록 보장해야 합니다. 그러나 에이전트의 행동 가치 기능은 공격자가 알지 못하므로 적의 교란이 최적이라는 보장은 없습니다. 다음 정리는 정책이 최적일 경우 행동 가치 함수

에 접근하지 않고도 최적의 적대적 교란이 생성될 수 있음을 보여줄 수 있습니다. 정리 1: 제어 전략 심층 강화 학습의 적대적 공격 및 방어 이 최적일 때 행동 가치 함수와 정책은 다음 관계

를 만족합니다.

심층 강화 학습의 적대적 공격 및 방어

정책 엔트로피를 나타내는 곳은 상태 의존 상수이며, 0으로 변경되면 0으로 변경되며 다음 공식

은 다음을 증명합니다. 무작위 전략 심층 강화 학습의 적대적 공격 및 방어 이 최적에 도달하면 , 가치 함수 도 최적에 도달합니다. 이는 각 상태 s에서 가치 함수 를 증가시키는 다른 행동 분포를 찾을 수 없음을 의미합니다. 이에 따라 최적의 행동 가치 함수 가 주어지면 제한된 최적화 문제를 해결하여 최적의 전략 심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어

을 얻을 수 있습니다. 두 번째와 세 번째 행은 이것이 확률 분포임을 나타내고 마지막 행은 전략이 다음임을 나타냅니다. , KKT 조건에 따라 위의 최적화 문제는 다음 형식으로 변환될 수 있습니다.

심층 강화 학습의 적대적 공격 및 방어

그 중에 심층 강화 학습의 적대적 공격 및 방어 . 가 모든 행동 에 대해 양의 정부호라고 가정하면 다음과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

심층 강화 학습의 적대적 공격 및 방어 이면 가 있어야 하고 모든 에 대해서는 이 있으므로 행동 값 사이의 관계를 얻을 수 있습니다. 함수와 전략의 소프트맥스

심층 강화 학습의 적대적 공격 및 방어

중 심층 강화 학습의 적대적 공격 및 방어 이 있고

심층 강화 학습의 적대적 공격 및 방어

이 있습니다. 위의 첫 번째 방정식을 두 번째 방정식에 가져오면

심층 강화 학습의 적대적 공격 및 방어

이 있고 그중

심층 강화 학습의 적대적 공격 및 방어

이 있습니다. 위 공식 심층 강화 학습의 적대적 공격 및 방어 은 엔트로피가 와 같은 소프트맥스 형태의 확률 분포를 나타냅니다. 가 0과 같으면 역시 0이 됩니다. 이 경우 는 0보다 크고 이때는 입니다.

정리 1은 정책이 최적인 경우 섭동된 정책과 원래 정책의 교차 엔트로피를 최대화하여 최적의 섭동을 얻을 수 있음을 보여줍니다. 논의의 단순화를 위해 저자는 정리 1의 공격을 전략적 공격이라고 부르며, 저자는 PGD 알고리즘 프레임워크를 사용하여 최적의 전략적 공격을 계산합니다. 구체적인 알고리즘 흐름도는 아래 알고리즘 1과 같습니다.

심층 강화 학습의 적대적 공격 및 방어

저자가 제안한 섭동 방어를 위한 강력한 최적화 알고리즘의 흐름도는 아래 알고리즘 2에 나와 있습니다. 이 알고리즘을 전략적 공격 적대 훈련이라고 합니다. 훈련 단계에서 섭동 정책은 환경과 상호작용하는 데 사용되며 동시에 섭동 정책의 행동 가치 함수 심층 강화 학습의 적대적 공격 및 방어 는 정책 훈련에 도움이 되는 것으로 추정됩니다.

구체적인 세부 사항은 먼저, 가치 함수가 감소하는 것을 보장하지 않음에도 불구하고 저자가 훈련 단계에서 교란을 생성하기 위해 전략적 공격을 사용한다는 것입니다. 학습 초기 단계에서는 정책이 행동 가치 함수와 관련이 없을 수 있습니다. 학습이 진행됨에 따라 점차적으로 소프트맥스 관계를 충족하게 됩니다.

반면에 저자는 행동 가치 함수를 정확하게 추정해야 합니다 심층 강화 학습의 적대적 공격 및 방어 이는 교란된 정책을 실행하여 궤적을 수집하기 때문에 처리하기 어렵고, 이러한 데이터를 사용하여 교란되지 않은 정책의 행동 가치 함수를 추정하는 것은 매우 어려울 수 있습니다. 부정확하다.

심층 강화 학습의 적대적 공격 및 방어

PPO를 사용하는 최적화된 섭동 전략 심층 강화 학습의 적대적 공격 및 방어 의 목적 함수는

여기서 심층 강화 학습의 적대적 공격 및 방어 이고 는 섭동 전략의 평균 함수 에 대한 추정치입니다. 실제로 는 GAE 방법으로 추정됩니다. 구체적인 알고리즘 흐름도는 아래 그림에 나와 있습니다.

심층 강화 학습의 적대적 공격 및 방어

04 실험 결과

아래 오른쪽 세 개의 하위 그림은 서로 다른 공격 교란의 결과를 보여줍니다. 역으로 훈련된 정책과 표준 정책 모두 무작위 교란에 강하다는 것을 알 수 있습니다. 대조적으로, 적대적 공격은 다양한 전략의 성능을 저하시킵니다. 결과는 테스트 환경과 방어 알고리즘에 따라 달라지며, 나아가 세 가지 적대 공격 알고리즘 간의 성능 차이가 작다는 것을 알 수 있습니다.

반대로 상대적으로 어려운 환경에서 알고리즘 간섭을 공격하기 위해 논문 저자가 제안한 전략은 훨씬 낮은 수익을 창출합니다. 전반적으로, 논문에서 제안한 전략적 공격 알고리즘은 대부분의 경우 가장 낮은 보상을 생성하며, 이는 실제로 테스트된 모든 적대적 공격 알고리즘 중에서 가장 효율적임을 나타냅니다.

심층 강화 학습의 적대적 공격 및 방어

아래 그림과 같이 다양한 방어 알고리즘과 표준 PPO의 학습 곡선이 표시됩니다. 성능 곡선은 환경과 상호 작용하는 데 사용되는 전략의 예상 수익만을 나타낸다는 점에 유의하는 것이 중요합니다. 본 논문에서 제안하는 ATPA는 모든 훈련 알고리즘 중에서 훈련 분산이 가장 낮아 다른 알고리즘보다 안정적이다. 또한 ATPA는 특히 초기 훈련 단계에서 표준 PPO보다 훨씬 느리게 진행됩니다. 이는 훈련 초기 단계에서 불리한 요인으로 인해 방해를 받으면 전략 훈련이 매우 불안정해질 수 있다는 사실로 이어집니다.

심층 강화 학습의 적대적 공격 및 방어

이 표에는 다양한 섭동 하에서 다양한 알고리즘을 사용하는 전략의 예상 수익이 요약되어 있습니다. ATPA 훈련 전략은 다양한 적대적 간섭에 저항력이 있다는 것을 알 수 있습니다. 이에 비해 StageWise와 DataAugment는 어느 정도 적대적 공격을 처리하는 방법을 배웠지만 모든 경우에 ATPA만큼 효과적이지는 않습니다.

심층 강화 학습의 적대적 공격 및 방어

더 넓은 비교를 위해 저자는 가장 효과적인 전략적 공격 알고리즘에 의해 생성된 다양한 수준의 적대적 간섭에 대한 이러한 방어 알고리즘의 견고성을 평가합니다. 아래에서 볼 수 있듯이 ATPA는 모든 경우에서 다시 한 번 가장 높은 점수를 받았습니다. 또한 ATPA의 평가 분산은 StageWise 및 DataAugment의 평가 분산보다 훨씬 작으며 이는 ATPA가 생성 능력이 더 강력하다는 것을 나타냅니다.

심층 강화 학습의 적대적 공격 및 방어

유사한 성능을 달성하려면 ATPA에는 표준 PPO 알고리즘보다 더 많은 훈련 데이터가 필요합니다. 저자는 섭동 전략의 안정성을 연구하여 이 문제를 조사했습니다. 저자는 훈련 과정의 중간과 끝에서 서로 다른 무작위 초기 지점을 갖는 PGD를 사용하여 정책 공격을 수행하여 얻은 교란된 정책의 KL 발산 값을 계산했습니다. 아래 그림에서 볼 수 있듯이, 적대적 훈련이 없으면 표준 PPO가 수렴하더라도 큰 KL 발산 값이 지속적으로 관찰되는데, 이는 서로 다른 초기점으로 PGD를 수행하여 생성되는 교란에 대해 정책이 매우 불안정하다는 것을 나타냅니다.

심층 강화 학습의 적대적 공격 및 방어

다음 그림은 서로 다른 초기 지점을 갖는 섭동 전략의 KL 발산 플롯을 보여줍니다. 그림의 각 픽셀은 두 가지 섭동 전략의 KL 발산 값을 나타내는 것을 알 수 있습니다. 이 두 가지 섭동 전략의 핵심 공식은 다음과 같습니다. 알고리즘이 제공됩니다. KL 발산은 비대칭 측정항목이므로 이러한 매핑도 비대칭입니다.

심층 강화 학습의 적대적 공격 및 방어