StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

WBOY
풀어 주다: 2023-04-09 08:31:08
앞으로
1097명이 탐색했습니다.

다중 에이전트 강화 학습(MARL)은 각 에이전트의 정책 개선 방향을 식별하는 것뿐만 아니라 개별 에이전트의 정책 업데이트를 공동으로 결합하여 전반적인 성능을 향상시키는 어려운 문제입니다. 최근 이 문제는 초기에 해결되었으며, 일부 연구자들은 학습 단계에서 에이전트가 전역 정보에 접근할 수 있도록 하는 CTDE(중앙 집중식 훈련 분산 실행) 방법을 도입했습니다. 그러나 이러한 방법으로는 다중 에이전트 상호 작용의 복잡성을 완전히 다룰 수 없습니다.

실제로 이러한 방법 중 일부는 실패한 것으로 입증되었습니다. 이 문제를 해결하기 위해 누군가 다중 에이전트 지배력 분해 정리를 제안했습니다. 이를 바탕으로 HATRPO 및 HAPPO 알고리즘이 파생됩니다. 그러나 신중하게 설계된 최대화 목표에 여전히 의존하는 이러한 접근 방식에는 제한 사항이 있습니다.

최근 몇 년 동안 자연어 처리(NLP) 분야에서 시퀀스 모델(SM)이 상당한 발전을 이루었습니다. 예를 들어, GPT 시리즈와 BERT는 광범위한 다운스트림 작업에서 우수한 성능을 발휘하고 소규모 샘플 일반화 작업에서 강력한 성능을 달성합니다.

순차 모델은 언어의 순서 특성과 자연스럽게 맞아떨어지기 때문에 언어 작업에 사용할 수 있지만, 순서 방법은 NLP 작업에만 국한되지 않고 널리 적용 가능한 일반 기본 모델입니다. 예를 들어, 컴퓨터 비전(CV)에서는 이미지를 하위 이미지로 분할하고 NLP 작업의 토큰인 것처럼 순서대로 배열할 수 있습니다. Flamingo, DALL-E, GATO 등 더 유명한 최신 모델에는 모두 시퀀스 방식의 그림자가 있습니다.

Transformer와 같은 네트워크 아키텍처의 등장과 함께 시퀀스 모델링 기술은 Transformer 아키텍처를 기반으로 일련의 오프라인 RL 개발을 추진해온 RL 커뮤니티에서도 큰 관심을 끌었습니다. 이러한 방법은 가장 기본적인 RL 훈련 문제 중 일부를 해결하는 데 큰 잠재력을 보여줍니다.

이러한 방법의 눈에 띄는 성공에도 불구하고 다중 에이전트 시스템의 가장 어려운(그리고 MARL의 고유한) 측면인 에이전트 간의 상호 작용을 모델링하도록 설계된 방법은 없습니다. 실제로 단순히 모든 에이전트에 Transformer 정책을 제공하고 개별적으로 교육하더라도 MARL 공동 성능 향상이 보장되지는 않습니다. 따라서 사용할 수 있는 강력한 시퀀스 모델이 많이 있지만 MARL은 실제로 시퀀스 모델 성능을 활용하지 않습니다.

MARL 문제를 해결하기 위해 시퀀스 모델을 사용하는 방법은 무엇입니까? Shanghai Jiao Tong University, Digital Brain Lab, Oxford University 등의 연구원들은 협업 MARL 문제를 시퀀스 모델 문제로 효과적으로 변환할 수 있는 새로운 다중 에이전트 변환기(MAT, Multi-Agent Transformer) 아키텍처를 제안했습니다. 에이전트의 관찰 순서를 에이전트의 최적 행동 순서로 바꿉니다.

이 문서의 목표는 MARL에 대한 최신 시퀀스 모델의 모델링 기능을 잠금 해제하기 위해 MARL과 SM 사이에 다리를 구축하는 것입니다. MAT의 핵심은 다중 에이전트 이점 분해 정리를 사용하여 공동 전략 검색 문제를 순차적 의사 결정 프로세스로 변환하는 인코더-디코더 아키텍처입니다. 따라서 다중 에이전트 문제는 선형 시간 복잡도를 나타내며 대부분 중요한 것은 그렇게 하면 MAT의 단조로운 성능 향상을 보장할 수 있다는 것입니다. Decision Transformer와 같이 미리 수집된 오프라인 데이터가 필요한 이전 기술과 달리 MAT는 환경에서 온라인 시행착오를 통해 온라인 전략 방식으로 학습됩니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.


  • 논문 주소: https://arxiv.org/pdf/2205.14953.pdf
  • 프로젝트 홈페이지: https://sites.google.com/view/multi -agent-transformer

MAT를 검증하기 위해 연구원들은 StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation 및 Google Research Football 벤치마크에 대한 광범위한 실험을 수행했습니다. 결과는 MAT가 MAPPO 및 HAPPO와 같은 강력한 기준에 비해 더 나은 성능과 데이터 효율성을 가지고 있음을 보여줍니다. 또한, 본 연구에서는 에이전트 수가 어떻게 변하더라도 보이지 않는 작업에서는 MAT가 더 나은 성능을 발휘하지만 우수한 소규모 표본 학습자라고 할 수 있음도 입증했습니다.

배경 지식

이 섹션에서 연구자는 먼저 이 글의 초석이 되는 협력적 MARL 문제 공식과 ​​다중 에이전트 지배 분해 정리를 소개합니다. 그런 다음 기존 MAT 관련 MARL 방법을 검토하고 최종적으로 Transformer로 이어집니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

기존 다중 에이전트 학습 패러다임(왼쪽)과 다중 에이전트 시퀀스 의사결정 패러다임(오른쪽) 비교.

문제 공식화

공동 MARL 문제는 일반적으로 부분적으로 관찰 가능한 개별 마르코프 결정 프로세스(Dec-POMDP) ​​StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.에 의해 모델링됩니다.

다중 에이전트 우세 분해 정리

에이전트는 다음과 같이 정의되는 Q_π(o, a)와 V_π(o)를 통해 행동과 관찰의 값을 평가합니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

정리 1(다중 에이전트 지배력 분해): i_1:n을 에이전트 배열로 둡니다. 다음 공식은 추가 가정 없이 항상 유지됩니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

중요하게 정리 1은 점진적인 개선 조치를 선택하는 방법에 대한 직관을 제공합니다.

기존 MARL 방법

연구원들은 현재 PPO(Proximal Policy Optimization)를 기반으로 구축된 두 가지 SOTA MARL 알고리즘을 요약했습니다. PPO는 단순성과 성능 안정성으로 잘 알려진 RL 방법입니다.

MAPPO(Multi-Agent Proximal Policy Optimization)는 MARL에 PPO를 적용하는 최초이자 가장 직접적인 방법입니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

​HAPPO(Heterogeneous Agent Proximal Policy Optimization)는 정리 (1)을 완전히 활용하여 단조로운 개선 보장으로 다중 에이전트 신뢰 도메인 학습을 달성할 수 있는 현재 SOTA 알고리즘 중 하나입니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

Transformer 모델

정리 (1)에 설명된 시퀀스 속성과 HAPPO의 원리를 기반으로 이제 다중 에이전트 신뢰 영역 구현을 위해 Transformer 모델을 사용하는 것이 직관적입니다. 학습. 상담원 팀을 시퀀스로 처리함으로써 Transformer 아키텍처는 MAPPO/HAPPO의 단점을 피하면서 가변적인 수와 유형의 상담원 팀을 모델링할 수 있습니다.

Multi-agent Transformer

MARL의 시퀀스 모델링 패러다임을 구현하기 위해 연구진이 제공하는 솔루션은 Multi-agent Transformer(MAT)입니다. Transformer 아키텍처를 적용한다는 아이디어는 에이전트가 시퀀스의 입력(o^i_1,..., o^i_n)과 액션 시퀀스의 출력(a^i_1, . ., a^i_n) 매핑은 기계 번역과 유사한 시퀀스 모델링 작업입니다. 정리 (1)이 회피하는 것처럼, 행동 a^i_m은 모든 에이전트 a^i_1:m−1의 이전 결정에 따라 달라집니다.

따라서 아래 그림 (2)와 같이 MAT에는 공동 관찰 표현을 학습하기 위한 인코더와 자동 회귀 방식으로 각 에이전트에 대한 작업을 출력하는 디코더가 포함되어 있습니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.


​인코더의 매개변수는 ψ로 표시되며, 이는 일련의 관측값(o^i_1, . . . , o^i_n)을 임의의 순서로 취하여 여러 계산 과정을 통해 전달합니다. 블록. 각 블록은 Self-Attention 메커니즘, MLP(다층 퍼셉트론) 및 잔여 연결로 구성되어 깊이가 증가함에 따라 기울기 소멸 및 네트워크 저하를 방지합니다.

디코더의 매개변수는 θ로 표시되며, 이는 포함된 조인트 동작 a^i_0:m−1 , m = {1, . 디코딩)을 디코딩된 블록 시퀀스에 추가합니다. 결정적으로, 각 디코딩 블록에는 마스크된 self-attention 메커니즘이 있습니다. 디코더를 훈련시키기 위해 다음과 같이 잘린 PPO 목적을 최소화합니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

MAT의 자세한 데이터 흐름은 아래 애니메이션에 나와 있습니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

​실험 결과

MAT가 기대치를 충족하는지 평가하기 위해 연구진은 SMAC(StarCraft II Multi-Agent Challenge) 벤치마크(MAPPO의 성능이 우수함)와 다중 에이전트 MuJoCo 벤치마크(HAPPO)에서 실험을 수행했습니다. MAT에서는 위의 SOTA 성능으로 테스트되었습니다.

또한 연구원들은 Bi-DexHands(Bi-DexHands) 및 Google Research Football 벤치마크에 대한 MAT에 대한 확장 테스트도 수행했습니다. 전자는 다양한 양손 작업을 제공하고 후자는 축구 경기 내에서 다양한 협력 시나리오를 제공합니다.

마지막으로 Transformer 모델은 일반적으로 작은 샘플 작업에서 강력한 일반화 성능을 보여주기 때문에 연구원들은 MAT가 보이지 않는 MARL 작업에서도 비슷하게 강력한 일반화 기능을 가질 수 있다고 믿습니다. 따라서 그들은 SMAC 및 다중 에이전트 MuJoCo 작업에 대한 제로샷 및 스몰샷 실험을 설계했습니다.

협업 MARL 벤치마크 성능

아래 표 1과 그림 4에 표시된 것처럼 SMAC, 다중 에이전트 MuJoCo 및 Bi-DexHands 벤치마크의 경우 MAT는 거의 모든 작업에서 MAPPO 및 HAPPO를 크게 능가하며 강력한 구성을 보여줍니다. 동종 및 이종 에이전트 작업에 대한 능력. 또한 MAT는 MAT-Dec보다 더 나은 성능을 달성하며 이는 MAT 설계에서 디코더 아키텍처의 중요성을 나타냅니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.


StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

마찬가지로 연구원들은 아래 그림 5와 같이 Google Research Football 벤치마크에서도 유사한 성능 결과를 얻었습니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

Few-shot 학습을 위한 MAT

각 알고리즘의 제로샷 및 퓨샷 결과는 표 2와 3에 요약되어 있으며 굵은 숫자는 최고의 성능을 나타냅니다.

연구원들은 대조군과 마찬가지로 처음부터 훈련한 동일한 데이터 조건에서 MAT의 성능을 제공했습니다. 아래 표에서 볼 수 있듯이 MAT는 대부분의 최상의 결과를 달성하며 이는 MAT의 Few-Shot 학습의 강력한 일반화 성능을 보여줍니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

위 내용은 StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿