StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.-일체 포함-php.cn

배경 지식

문제 공식화

다중 에이전트 우세 분해 정리

기존 MARL 방법

Multi-agent Transformer

실험 결과

협업 MARL 벤치마크 성능

Few-shot 학습을 위한 MAT

집

기술 주변기기

일체 포함

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 08:31 AM

건축학 강화 학습 지능적인

다중 에이전트 강화 학습(MARL)은 각 에이전트의 정책 개선 방향을 식별하는 것뿐만 아니라 개별 에이전트의 정책 업데이트를 공동으로 결합하여 전반적인 성능을 향상시키는 어려운 문제입니다. 최근 이 문제는 초기에 해결되었으며, 일부 연구자들은 학습 단계에서 에이전트가 전역 정보에 접근할 수 있도록 하는 CTDE(중앙 집중식 훈련 분산 실행) 방법을 도입했습니다. 그러나 이러한 방법으로는 다중 에이전트 상호 작용의 복잡성을 완전히 다룰 수 없습니다.

실제로 이러한 방법 중 일부는 실패한 것으로 입증되었습니다. 이 문제를 해결하기 위해 누군가 다중 에이전트 지배력 분해 정리를 제안했습니다. 이를 바탕으로 HATRPO 및 HAPPO 알고리즘이 파생됩니다. 그러나 신중하게 설계된 최대화 목표에 여전히 의존하는 이러한 접근 방식에는 제한 사항이 있습니다.

최근 몇 년 동안 자연어 처리(NLP) 분야에서 시퀀스 모델(SM)이 상당한 발전을 이루었습니다. 예를 들어, GPT 시리즈와 BERT는 광범위한 다운스트림 작업에서 우수한 성능을 발휘하고 소규모 샘플 일반화 작업에서 강력한 성능을 달성합니다.

순차 모델은 언어의 순서 특성과 자연스럽게 맞아떨어지기 때문에 언어 작업에 사용할 수 있지만, 순서 방법은 NLP 작업에만 국한되지 않고 널리 적용 가능한 일반 기본 모델입니다. 예를 들어, 컴퓨터 비전(CV)에서는 이미지를 하위 이미지로 분할하고 NLP 작업의 토큰인 것처럼 순서대로 배열할 수 있습니다. Flamingo, DALL-E, GATO 등 더 유명한 최신 모델에는 모두 시퀀스 방식의 그림자가 있습니다.

Transformer와 같은 네트워크 아키텍처의 등장과 함께 시퀀스 모델링 기술은 Transformer 아키텍처를 기반으로 일련의 오프라인 RL 개발을 추진해온 RL 커뮤니티에서도 큰 관심을 끌었습니다. 이러한 방법은 가장 기본적인 RL 훈련 문제 중 일부를 해결하는 데 큰 잠재력을 보여줍니다.

이러한 방법의 눈에 띄는 성공에도 불구하고 다중 에이전트 시스템의 가장 어려운(그리고 MARL의 고유한) 측면인 에이전트 간의 상호 작용을 모델링하도록 설계된 방법은 없습니다. 실제로 단순히 모든 에이전트에 Transformer 정책을 제공하고 개별적으로 교육하더라도 MARL 공동 성능 향상이 보장되지는 않습니다. 따라서 사용할 수 있는 강력한 시퀀스 모델이 많이 있지만 MARL은 실제로 시퀀스 모델 성능을 활용하지 않습니다.

MARL 문제를 해결하기 위해 시퀀스 모델을 사용하는 방법은 무엇입니까? Shanghai Jiao Tong University, Digital Brain Lab, Oxford University 등의 연구원들은 협업 MARL 문제를 시퀀스 모델 문제로 효과적으로 변환할 수 있는 새로운 다중 에이전트 변환기(MAT, Multi-Agent Transformer) 아키텍처를 제안했습니다. 에이전트의 관찰 순서를 에이전트의 최적 행동 순서로 바꿉니다.

이 문서의 목표는 MARL에 대한 최신 시퀀스 모델의 모델링 기능을 잠금 해제하기 위해 MARL과 SM 사이에 다리를 구축하는 것입니다. MAT의 핵심은 다중 에이전트 이점 분해 정리를 사용하여 공동 전략 검색 문제를 순차적 의사 결정 프로세스로 변환하는 인코더-디코더 아키텍처입니다. 따라서 다중 에이전트 문제는 선형 시간 복잡도를 나타내며 대부분 중요한 것은 그렇게 하면 MAT의 단조로운 성능 향상을 보장할 수 있다는 것입니다. Decision Transformer와 같이 미리 수집된 오프라인 데이터가 필요한 이전 기술과 달리 MAT는 환경에서 온라인 시행착오를 통해 온라인 전략 방식으로 학습됩니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

논문 주소: https://arxiv.org/pdf/2205.14953.pdf
프로젝트 홈페이지: https://sites.google.com/view/multi -agent-transformer

MAT를 검증하기 위해 연구원들은 StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation 및 Google Research Football 벤치마크에 대한 광범위한 실험을 수행했습니다. 결과는 MAT가 MAPPO 및 HAPPO와 같은 강력한 기준에 비해 더 나은 성능과 데이터 효율성을 가지고 있음을 보여줍니다. 또한, 본 연구에서는 에이전트 수가 어떻게 변하더라도 보이지 않는 작업에서는 MAT가 더 나은 성능을 발휘하지만 우수한 소규모 표본 학습자라고 할 수 있음도 입증했습니다.

배경 지식

이 섹션에서 연구자는 먼저 이 글의 초석이 되는 협력적 MARL 문제 공식과 다중 에이전트 지배 분해 정리를 소개합니다. 그런 다음 기존 MAT 관련 MARL 방법을 검토하고 최종적으로 Transformer로 이어집니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

기존 다중 에이전트 학습 패러다임(왼쪽)과 다중 에이전트 시퀀스 의사결정 패러다임(오른쪽) 비교.

문제 공식화

공동 MARL 문제는 일반적으로 부분적으로 관찰 가능한 개별 마르코프 결정 프로세스(Dec-POMDP) StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다. 에 의해 모델링됩니다.

다중 에이전트 우세 분해 정리

에이전트는 다음과 같이 정의되는 Q_π(o, a)와 V_π(o)를 통해 행동과 관찰의 값을 평가합니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

정리 1(다중 에이전트 지배력 분해): i_1:n을 에이전트 배열로 둡니다. 다음 공식은 추가 가정 없이 항상 유지됩니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

중요하게 정리 1은 점진적인 개선 조치를 선택하는 방법에 대한 직관을 제공합니다.

기존 MARL 방법

연구원들은 현재 PPO(Proximal Policy Optimization)를 기반으로 구축된 두 가지 SOTA MARL 알고리즘을 요약했습니다. PPO는 단순성과 성능 안정성으로 잘 알려진 RL 방법입니다.

MAPPO(Multi-Agent Proximal Policy Optimization)는 MARL에 PPO를 적용하는 최초이자 가장 직접적인 방법입니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

HAPPO(Heterogeneous Agent Proximal Policy Optimization)는 정리 (1)을 완전히 활용하여 단조로운 개선 보장으로 다중 에이전트 신뢰 도메인 학습을 달성할 수 있는 현재 SOTA 알고리즘 중 하나입니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

Transformer 모델

정리 (1)에 설명된 시퀀스 속성과 HAPPO의 원리를 기반으로 이제 다중 에이전트 신뢰 영역 구현을 위해 Transformer 모델을 사용하는 것이 직관적입니다. 학습. 상담원 팀을 시퀀스로 처리함으로써 Transformer 아키텍처는 MAPPO/HAPPO의 단점을 피하면서 가변적인 수와 유형의 상담원 팀을 모델링할 수 있습니다.

Multi-agent Transformer

MARL의 시퀀스 모델링 패러다임을 구현하기 위해 연구진이 제공하는 솔루션은 Multi-agent Transformer(MAT)입니다. Transformer 아키텍처를 적용한다는 아이디어는 에이전트가 시퀀스의 입력(o^i_1,..., o^i_n)과 액션 시퀀스의 출력(a^i_1, . ., a^i_n) 매핑은 기계 번역과 유사한 시퀀스 모델링 작업입니다. 정리 (1)이 회피하는 것처럼, 행동 a^i_m은 모든 에이전트 a^i_1:m−1의 이전 결정에 따라 달라집니다.

따라서 아래 그림 (2)와 같이 MAT에는 공동 관찰 표현을 학습하기 위한 인코더와 자동 회귀 방식으로 각 에이전트에 대한 작업을 출력하는 디코더가 포함되어 있습니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

인코더의 매개변수는 ψ로 표시되며, 이는 일련의 관측값(o^i_1, . . . , o^i_n)을 임의의 순서로 취하여 여러 계산 과정을 통해 전달합니다. 블록. 각 블록은 Self-Attention 메커니즘, MLP(다층 퍼셉트론) 및 잔여 연결로 구성되어 깊이가 증가함에 따라 기울기 소멸 및 네트워크 저하를 방지합니다.

디코더의 매개변수는 θ로 표시되며, 이는 포함된 조인트 동작 a^i_0:m−1 , m = {1, . 디코딩)을 디코딩된 블록 시퀀스에 추가합니다. 결정적으로, 각 디코딩 블록에는 마스크된 self-attention 메커니즘이 있습니다. 디코더를 훈련시키기 위해 다음과 같이 잘린 PPO 목적을 최소화합니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

MAT의 자세한 데이터 흐름은 아래 애니메이션에 나와 있습니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

실험 결과

MAT가 기대치를 충족하는지 평가하기 위해 연구진은 SMAC(StarCraft II Multi-Agent Challenge) 벤치마크(MAPPO의 성능이 우수함)와 다중 에이전트 MuJoCo 벤치마크(HAPPO)에서 실험을 수행했습니다. MAT에서는 위의 SOTA 성능으로 테스트되었습니다.

또한 연구원들은 Bi-DexHands(Bi-DexHands) 및 Google Research Football 벤치마크에 대한 MAT에 대한 확장 테스트도 수행했습니다. 전자는 다양한 양손 작업을 제공하고 후자는 축구 경기 내에서 다양한 협력 시나리오를 제공합니다.

마지막으로 Transformer 모델은 일반적으로 작은 샘플 작업에서 강력한 일반화 성능을 보여주기 때문에 연구원들은 MAT가 보이지 않는 MARL 작업에서도 비슷하게 강력한 일반화 기능을 가질 수 있다고 믿습니다. 따라서 그들은 SMAC 및 다중 에이전트 MuJoCo 작업에 대한 제로샷 및 스몰샷 실험을 설계했습니다.

협업 MARL 벤치마크 성능

아래 표 1과 그림 4에 표시된 것처럼 SMAC, 다중 에이전트 MuJoCo 및 Bi-DexHands 벤치마크의 경우 MAT는 거의 모든 작업에서 MAPPO 및 HAPPO를 크게 능가하며 강력한 구성을 보여줍니다. 동종 및 이종 에이전트 작업에 대한 능력. 또한 MAT는 MAT-Dec보다 더 나은 성능을 달성하며 이는 MAT 설계에서 디코더 아키텍처의 중요성을 나타냅니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

마찬가지로 연구원들은 아래 그림 5와 같이 Google Research Football 벤치마크에서도 유사한 성능 결과를 얻었습니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

Few-shot 학습을 위한 MAT

각 알고리즘의 제로샷 및 퓨샷 결과는 표 2와 3에 요약되어 있으며 굵은 숫자는 최고의 성능을 나타냅니다.

연구원들은 대조군과 마찬가지로 처음부터 훈련한 동일한 데이터 조건에서 MAT의 성능을 제공했습니다. 아래 표에서 볼 수 있듯이 MAT는 대부분의 최상의 결과를 달성하며 이는 MAT의 Few-Shot 학습의 강력한 일반화 성능을 보여줍니다.

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

위 내용은 StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7487

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

날아다니는 것, 입을 벌리는 것, 쳐다보는 것, 눈썹을 치켜올리는 것 등의 얼굴 특징을 AI가 완벽하게 모방할 수 있어 영상사기 예방이 불가능하다. Dec 14, 2023 pm 11:30 PM

이렇게 강력한 AI 모방 능력을 가지고 있다면, 막는 것은 사실상 불가능합니다. 이제 AI의 발전이 이 정도 수준에 이르렀나? 앞발은 이목구비를 날리게 하고, 뒷발은 쳐다보는 것, 눈썹을 치켜올리는 것, 삐죽이는 것 등 아무리 과장된 표정이라도 완벽하게 흉내낸다. 난이도를 높이고, 눈썹을 더 높이 올리고, 눈을 크게 뜨고, 입 모양까지 비뚤어지게 표현하는 등 가상 캐릭터 아바타가 표정을 완벽하게 재현할 수 있다. 왼쪽의 매개변수를 조정하면 오른쪽의 가상 아바타도 그에 따라 움직임을 변경하여 입과 눈을 클로즈업하여 모방이 완전히 동일하다고는 할 수 없으며 표정만 정확합니다. 마찬가지다(맨 오른쪽). 이 연구는 GaussianAvatars를 제안하는 뮌헨 기술 대학과 같은 기관에서 나왔습니다.

강화 학습의 보상 기능 설계 문제 Oct 09, 2023 am 11:58 AM

강화학습의 보상 함수 설계 문제 서론 강화학습은 에이전트와 환경 간의 상호작용을 통해 최적의 전략을 학습하는 방법입니다. 강화 학습에서는 보상 기능의 설계가 에이전트의 학습 효과에 매우 중요합니다. 이 기사에서는 강화 학습의 보상 함수 설계 문제를 살펴보고 구체적인 코드 예제를 제공합니다. 보상 함수의 역할과 목표 보상 함수는 강화학습의 중요한 부분으로 에이전트가 특정 상태에서 얻는 보상 값을 평가하는 데 사용됩니다. 이 설계는 에이전트가 최적의 작업을 선택하여 장기적인 피로를 극대화하도록 안내하는 데 도움이 됩니다.

Panda-Gym의 로봇팔 시뮬레이션을 이용한 Deep Q-learning 강화학습 Oct 31, 2023 pm 05:57 PM

강화 학습(RL)은 에이전트가 시행착오를 통해 환경에서 행동하는 방법을 학습할 수 있는 기계 학습 방법입니다. 에이전트는 원하는 결과로 이어지는 조치를 취한 것에 대해 보상을 받거나 처벌을 받습니다. 시간이 지남에 따라 에이전트는 예상 보상을 최대화하는 조치를 취하는 방법을 학습합니다. RL 에이전트는 일반적으로 순차적 결정 문제를 모델링하기 위한 수학적 프레임워크인 Markov 결정 프로세스(MDP)를 사용하여 교육됩니다. MDP는 네 부분으로 구성됩니다. 상태: 환경의 가능한 상태 집합입니다. 작업: 에이전트가 수행할 수 있는 일련의 작업입니다. 전환 함수(Transition function): 현재 상태와 동작을 고려하여 새로운 상태로 전환할 확률을 예측하는 함수입니다. 보상 기능: 각 전환에 대해 에이전트에게 보상을 할당하는 기능입니다. 에이전트의 목표는 정책 기능을 학습하는 것입니다.

Spring Data JPA의 아키텍처와 작동 원리는 무엇입니까? Apr 17, 2024 pm 02:48 PM

SpringDataJPA는 JPA 아키텍처를 기반으로 하며 매핑, ORM 및 트랜잭션 관리를 통해 데이터베이스와 상호 작용합니다. 해당 리포지토리는 CRUD 작업을 제공하고 파생 쿼리는 데이터베이스 액세스를 단순화합니다. 또한 지연 로딩을 사용하여 필요한 경우에만 데이터를 검색하므로 성능이 향상됩니다.

1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT Mar 11, 2024 pm 12:07 PM

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인

MotionLM: 다중 에이전트 모션 예측을 위한 언어 모델링 기술 Oct 13, 2023 pm 12:09 PM

이 글은 자율주행하트 공개 계정의 허가를 받아 재인쇄되었습니다. 재인쇄를 원하시면 출처에 문의해 주세요. 원제: MotionLM: Multi-Agent Motion Forecasting as Language Modeling 논문 링크: https://arxiv.org/pdf/2309.16534.pdf 저자 소속: Waymo 컨퍼런스: ICCV2023 논문 아이디어: 자율 차량 안전 계획을 위해 미래 행동을 안정적으로 예측 도로요원의 역할이 중요합니다. 본 연구는 연속적인 궤적을 개별 모션 토큰의 시퀀스로 표현하고 다중 에이전트 모션 예측을 언어 모델링 작업으로 처리합니다. 우리가 제안하는 모델인 MotionLM은 다음과 같은 장점을 가지고 있습니다.

golang 프레임워크 아키텍처의 학습 곡선은 얼마나 가파르나요? Jun 05, 2024 pm 06:59 PM

Go 프레임워크 아키텍처의 학습 곡선은 Go 언어 및 백엔드 개발에 대한 친숙도와 선택한 프레임워크의 복잡성, 즉 Go 언어의 기본 사항에 대한 올바른 이해에 따라 달라집니다. 백엔드 개발 경험이 있으면 도움이 됩니다. 다양한 복잡성의 프레임워크는 다양한 학습 곡선으로 이어집니다.

몇 년 안에 프로그래머가 쇠퇴할 것이라는 사실을 알고 계십니까? Nov 08, 2023 am 11:17 AM

"ComputerWorld" 잡지는 IBM이 엔지니어가 필요한 수학 공식을 작성한 다음 이를 제출하면 프로그래밍이 종료되도록 하는 새로운 언어 FORTRAN을 개발했기 때문에 "프로그래밍은 1960년에 사라질 것"이라는 기사를 쓴 적이 있습니다. 몇 년 후 우리는 비즈니스 용어를 사용하여 문제를 설명하고 컴퓨터에 COBOL이라는 프로그래밍 언어를 사용하면 더 이상 프로그래머가 필요하지 않다는 새로운 말을 들었습니다. 이후 IBM은 직원들이 양식을 작성하고 보고서를 생성할 수 있는 RPG라는 새로운 프로그래밍 언어를 개발해 회사의 프로그래밍 요구 사항 대부분을 이를 통해 완료할 수 있다고 합니다.

See all articles

StarCraft II 협력 대결 벤치마크가 SOTA를 능가하고 새로운 Transformer 아키텍처가 다중 에이전트 강화 학습 문제를 해결합니다.

배경 지식

문제 공식화

다중 에이전트 우세 분해 정리

기존 MARL 방법

Multi-agent Transformer

​실험 결과

협업 MARL 벤치마크 성능

Few-shot 학습을 위한 MAT

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제

실험 결과