인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.-일체 포함-php.cn

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

DeepMind는 게임 AI 분야, 이번에는 서양 체스에서 새로운 성과를 거두었습니다.

AI 게임 분야에서는 보드게임을 통해 인공지능의 발전을 보여주는 경우가 많습니다. 보드 게임은 인간과 기계가 통제된 환경에서 전략을 개발하고 실행하는 방법을 측정하고 평가할 수 있습니다. 수십 년 동안 미리 계획하는 능력은 체스, 체커, 장기, 바둑과 같은 완전 정보 게임은 물론 포커, 스코틀랜드 야드와 같은 불완전 정보 게임에서 AI가 성공하는 데 핵심이었습니다.

Stratego는 AI 연구의 차세대 개척자 중 하나가 되었습니다. 게임의 단계와 메커니즘의 시각화는 아래 1a에 나와 있습니다. 이 게임은 두 가지 과제에 직면해 있습니다.

먼저, Stratego의 게임 트리에는 10,535개의 가능한 상태가 있습니다. 이는 잘 연구된 불완전 정보 게임인 Unrestricted Texas Hold'em(10,164개의 가능한 상태) 및 Go(10,360개의 가능한 상태)보다 많은 수입니다.

둘째, Stratego의 주어진 환경에서 행동하려면 게임 시작 시 각 플레이어에 대해 1066개 이상의 가능한 배포를 추론해야 하는 반면 포커에는 가능한 손 쌍이 103개뿐입니다. 바둑 및 체스와 같은 완벽한 정보 게임에는 비공개 배포 단계가 없으므로 Stratego에서는 이러한 챌린지의 복잡성을 피합니다.

현재 모델 기반의 SOTA 완벽한 정보 기획 기법을 사용할 수 없고, 게임을 독립적인 상황으로 분해하는 불완전한 정보 검색 기법을 사용할 수도 없습니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다. 이러한 이유로 Stratego는 대규모 정책 상호 작용을 연구하기 위한 도전적인 벤치마크를 제공합니다. 대부분의 보드 게임과 마찬가지로 Stratego는 상대적으로 느리고 사려 깊으며 논리적인 결정을 순차적으로 내리는 능력을 테스트합니다. 그리고 게임의 매우 복잡한 구조로 인해 AI 연구 커뮤니티는 거의 진전을 이루지 못했고, 인공지능은 인간 아마추어 플레이어 수준에만 도달할 수 있습니다. 따라서 처음부터 인간의 시연 데이터 없이 Stratego의 불완전한 정보 하에서 최적의 결정을 내리기 위한 엔드투엔드 전략을 학습하는 에이전트를 개발하는 것은 AI 연구의 주요 과제 중 하나로 남아 있습니다.

최근 DeepMind의 최신 논문에서 연구원들은 사람의 시연 없이 모델 없는 방식으로 Stratego 셀프 게임을 학습하는 에이전트인 DeepNash를 제안했습니다. DeepNask는 이전 SOTA AI 에이전트를 물리치고 게임의 가장 복잡한 변형인 Stratego Classic에서 전문 인간 플레이어 수준을 달성했습니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다. 논문 주소: https://arxiv.org/pdf/2206.15378.pdf.

DeepNash의 핵심은 연구자들이 R-NaD(Regularized Nash Dynamics)라고 부르는 구조화된 모델 없는 강화 학습 알고리즘입니다. DeepNash는 R-NaD를 심층 신경망 아키텍처와 결합하고 Nash 균형으로 수렴합니다. 즉, 인센티브 하에 경쟁하는 방법을 배우고 이를 활용하려는 경쟁업체에 강력합니다.

아래 그림 1b는 DeepNash 방법에 대한 높은 수준의 개요입니다. 연구원들은 Gravon 게임 플랫폼에서 다양한 SOTA Stratego 로봇 및 인간 플레이어와의 성능을 체계적으로 비교했습니다. 결과에 따르면 DeepNash는 97% 이상의 승률로 기존 SOTA 로봇을 모두 이겼고, 인간 플레이어와 치열한 경쟁을 벌였으며 2022년 및 각 기간별 순위에서 84%의 승률로 상위 3위 안에 들었습니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

연구원들은 학습 알고리즘에 어떠한 검색 방법도 배치하지 않고 AI 알고리즘이 복잡한 보드 게임에서 인간 전문가 수준에 도달한 것은 이번이 처음이라고 말했습니다. Stratego 게임에서 인간 전문가 수준을 달성했습니다.

방법 개요

DeepNash는 엔드투엔드 학습 전략을 사용하여 Stratego를 실행하고 게임 시작 시 전략적으로 조각을 보드에 배치합니다(그림 1a 참조). 게임 플레이 단계에서 연구원들은 통합된 방법을 사용합니다. deep RL 및 게임 온(game On) 방법. 에이전트는 셀프 플레이를 통해 대략적인 내쉬 균형을 학습하는 것을 목표로 합니다.

본 연구에서는 검색 없는 직교 경로를 사용하며, 게임 이론 알고리즘 아이디어인 정규화된 내쉬 역학(RNaD)을 결합하여 자가 게임에서 모델 없는 강화 학습을 결합한 새로운 방법을 제안합니다.

모델이 없는 부분은 연구가 상대의 가능한 상태를 추적하기 위해 명시적인 상대 모델을 설정하지 않는다는 것을 의미합니다. 게임 이론 부분은 강화 학습 방법을 기반으로 에이전트 학습 행동을 안내한다는 아이디어에 기반합니다. 내쉬 발전을 균형 잡힌 방향으로 지향합니다. 이 구성적 접근 방식의 가장 큰 장점은 공개 상태에서 비공개 상태를 명시적으로 모의할 필요가 없다는 것입니다. 또 다른 복잡한 과제는 이 모델 없는 강화 학습 접근 방식을 R-NaD와 결합하여 서양 체스에서 자가 플레이를 통해 인간 전문 플레이어와 경쟁할 수 있도록 하는 것인데, 이는 지금까지 달성되지 못한 것입니다. 이 결합된 DeepNash 방법은 위의 그림 1b에 나와 있습니다.

Regularized Nash Dynamics Algorithm

DeepNash에서 사용되는 R-NaD 학습 알고리즘은 수렴을 달성하기 위한 정규화 아이디어를 기반으로 하며, 아래 그림 2b와 같이 세 가지 주요 단계를 따릅니다. 인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

DeepNash는 세 가지 구성 요소로 구성됩니다. (1) 핵심 훈련 구성 요소 R-NaD, (2) 모델이 매우 가능성 없는 조치를 취하는 잔여 확률을 줄이기 위해 학습 전략을 미세 조정, (3) 사후 확률이 낮은 작업을 필터링하고 오류를 수정하는 처리를 테스트합니다.

DeepNash의 네트워크는 잔여 블록과 스킵 연결이 있는 U-Net 백본과 4개의 헤드로 구성됩니다. 첫 번째 DeepNash 헤드는 값 함수를 스칼라로 출력하고, 나머지 3개 헤드는 배포 및 게임 플레이 중 해당 작업의 확률 분포를 출력하여 에이전트 정책을 인코딩합니다. 이 관찰 텐서의 구조는 그림 3에 나와 있습니다. 인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

실험 결과

DeepNash는 여러 기존 Stratego 컴퓨터 프로그램에 대해서도 평가되었습니다. Computer Stratego World Championship에서 Probe가 3년 동안 우승(2007년) , 2008, 2010); Master of the Flag는 2009년에 타이틀을 획득했습니다. Demon of Ignorance는 Stratego의 오픈 소스 구현입니다. Asmodeus, Celesius1.1, PeternLewis 및 Vixen은 2012년 호주 대학에서 우승했습니다. 프로그램이 제출되었습니다. Petern Lewis가 우승한 대회입니다.

표 1에서 볼 수 있듯이 DeepNash는 훈련을 받지 않고 셀프 플레이만 사용했음에도 불구하고 DeepNash가 모든 에이전트를 상대로 대부분의 게임에서 승리했습니다. ㅋㅋㅋ 빨간색 면에는 10, 9, 8 및 2개의 7이 있습니다. 그림 4c의 두 번째 예는 DeepNash가 9로 상대의 6을 캡처할 기회를 갖고 있음을 보여 주지만 이 움직임은 고려되지 않았습니다. 아마도 DeepNash가 9의 신원을 보호하는 것이 물질적 이득보다 더 중요하다고 믿었기 때문일 것입니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다.

아래 그림 5a에서 연구원들은 플레이어가 작품의 가치가 실제 가치보다 높은 척하는 긍정적인 허세를 보여줍니다. DeepNash는 알 수 없는 조각 Scout(2)로 상대의 8을 쫓아 10인 척합니다. 상대는 그 조각이 10일 것이라고 생각하고 그것을 스파이 옆(10이 포획될 수 있는 곳) 옆으로 안내합니다. 그러나 이 조각을 잡기 위해 상대 스파이는 딥내쉬의 스카우트에게 패했다.

두 번째 유형의 허세는 아래 그림 5b와 같이 네거티브 허세입니다. 이는 플레이어가 해당 작품의 가치가 실제보다 낮은 것처럼 가장하는 적극적인 허풍의 반대입니다.

인간을 상대로 한 승률은 84%입니다. DeepMind AI는 최초로 서양 체스에서 인간 전문가 수준에 도달했습니다. 아래 그림 5c는 DeepNash가 공개되지 않은 스카우트(2)를 상대의 10에 가깝게 배치하는 좀 더 복잡한 허세를 보여줍니다. 이는 스파이로 해석될 수 있습니다. 이 전략을 사용하면 실제로 Blue가 몇 수 후에 7로 Red의 5를 캡처할 수 있으므로 재료를 얻고 5가 Scout(2)를 캡처하는 것을 방지하고 실제로 스파이가 아니라는 것을 드러낼 수 있습니다.