기계가 미리 생각할 때 : 전략 AI의 상승-일체 포함-php.cn

새 기사를 게시 할 때마다 알림을 받고 싶습니까? ➡️ 내 뉴스 레터를 여기에서 구독하십시오. 무료이며 언제든지 구독을 취소 할 수 있습니다!

집

기술 주변기기

일체 포함

기계가 미리 생각할 때 : 전략 AI의 상승

王林

Feb 26, 2025 am 03:06 AM

전략적 ai

프롤로그 11. 1997 년 5 월, 뉴욕시.
뉴욕시의 아름다운 봄날이었습니다. 하늘은 깨끗했고 온도는 섭씨 20 도로 올라가고있었습니다. 양키스는 양키 스타디움에서 캔자스 시티 로열스 (Kansas City Royals)를 뛸 준비가되었고, 레인저스는 매디슨 스퀘어 가든 (Madison Square Garden)의 악마와 대결했습니다.
맨해튼 미드 타운의 공정한 센터에서 모이는 사람들은 진정으로 독특한 것을 경험하려고했습니다. 그들은 처음으로 컴퓨터가 표준 토너먼트 조건에서 체스에서 치열한 세계 챔피언을 이겼을 때 역사적인 사건을 목격하려고했습니다.
. 인간을 대표하는 것은 게리 카스파 로프 (Gary Kasparov)였으며 당시 세계 최고의 체스 선수로 널리 인정되었습니다. 기계를 나타내는 Deep Blue - IBM이 개발 한 체스 컴퓨터. 경기의 마지막 경기와 6 번째 경기에 들어가면 두 선수 모두 2.5 점을 얻었습니다. 오늘 우승자가 결정되었다.
Gary는 검은 색으로 시작했지만 초기 오류를 일으켜 Deep Blue의 강력하고 공격적인 공격에 직면했습니다. 단지 19 개의 움직임이 끝난 후에는 끝났습니다. 카스파 로프 (Kasparov)는 민주화되고 압력을 받고 사임하면서 자신의 입장을 견딜 수 없다고 믿었다. 상징적이고 많은 사람들이 사람과 기계 사이의 가장 중요한 순간 중 하나로 환영받는 사람들은 사실이었습니다. 이 획기적인 사건은 AI 개발의 전환점이되어 전략 AI의 잠재력과 도전을 강조했습니다.
소개
생성 AI의 최근 발전과 큰 언어 모델과 전략적 능력에 대한 본인의 실험에서 영감을 얻은 저는 전략적 AI에 대해 점점 더 생각하고 있습니다. 과거 에이 주제에 어떻게 접근하려고 했습니까? 보다 일반적인 전략 AI 에이전트를 갖기 전에 무엇이 도전과 해결해야 할 것인가?
데이터 과학자로서 우리는 고객과 고용주를위한 AI 솔루션을 점점 더 구현하고 있습니다. 대체로 사회의 경우 AI와 계속 증가하는 상호 작용은 AI, 특히 전략적 AI의 발전을 이해하는 것이 중요합니다. 일단 우리가 전략적 맥락에서 잘 조작 할 수있는 능력을 가진 자율적 인 에이전트를 갖게되면, 이것은 모든 사람에게 심각한 영향을 미칩니다.
. 그러나
전략 ai
라고 말할 때 정확히 무엇을 의미합니까? 핵심적으로 전략적 AI는 잠재적 인 행동을 고려할뿐만 아니라 다른 사람들의 반응을 예상하고 영향을 미치는 결정을 내리는 기계를 포함합니다. 복잡하고 불확실한 환경에서 예상 결과를 극대화하는 것입니다이 기사에서는 전략적 AI를 정의하고 1997 년 IBM의 Deep Blue Beat Kasparov 이후 몇 년 동안 그것이 무엇인지, 어떻게 발전했는지 탐구합니다. 우리는 일부 모델의 일반적인 아키텍처를 이해하려고 노력할 것입니다. 또한 LLM (Langues Models)이 그림에 얼마나 적합한 지 살펴보십시오. 이러한 추세와 발전을 이해함으로써 우리는 자율 AI 요원이 사회에 통합되는 세상을 더 잘 준비 할 수 있습니다. 전략 정의 ai

전략적 AI에 대한 더 깊은 토론은 주제에 대한 잘 구성된 정의로 시작됩니다. 상업 환경에서 전략을 고려할 때, 우리는 종종 장기 사고, 자원 할당 및 최적화, 조직의 상호 의존성에 대한 전체적인 이해, 목적 및 사명과의 결정에 맞는 주제와 관련이있는 경향이 있습니다. 회사 등. 이러한 주제는 고려해야 할 유용하지만 AI 및 자율 에이전트를 다룰 때 전략에 대한 더 많은 게임 이론적 정의를 선호합니다. 이 경우 우리는 전략을 다음과 같이 정의합니다 자신의 잠재적 행동뿐만 아니라 다른 사람들이 그러한 행동에 어떻게 대응할 것인지, 결정이 환경의 전반적인 역학에 어떤 영향을 미치는지 고려하여 예상 대가를 극대화하는 행동 과정 선택. > 이 정의의 중요한 부분은 전략적 선택이 진공 상태에서 발생하지 않고 오히려 다른 참가자의 맥락에서 인간, 조직 또는 다른 AI의 선택이라는 것입니다. 이러한 다른 단체는 자신의 유사하거나 상충되는 목표를 가질 수 있으며 자신의 이익을 더욱 발전시키기 위해 전략적으로 행동하려고 할 수도 있습니다. 또한 , 전략적 선택은 항상 돈, 유틸리티 또는 기타 가치 측정 측면에서 예상 대가를 극대화하려고합니다. 전략과 관련된보다 전통적인 "상업적"주제를 통합하고 싶다면 지금부터 10 년 후 회사의 가치를 극대화하고 싶다고 상상할 수 있습니다. 이 경우 좋은 전략을 공식화하려면 "장기"견해를 취해야하며 전략과의 일치를 보장하기 위해 회사의 "목적과 사명"도 고려할 수도 있습니다. 그러나 이러한 노력을 추구하는 것은 실제로 전략적으로 행동한다는 것이 실제로 의미하는 결과입니다.
전략의 게임 이론적 관점은 전략적 의사 결정의 본질을 포착하여 결과적으로 전략적 AI가 우리가 의미하는 바를 명확하게 정의 할 수있게 해줍니다. 정의에서 우리는 AI 시스템이나 에이전트가 전략적으로 행동 해야하는 경우 몇 가지 핵심 기능이 필요하다는 것을 알 수 있습니다. 구체적으로, 그것은 다음을 수행 할 수 있어야한다 :
모델 모델 (예측 기술 또는 확률 적 추론 사용 예상 유틸리티를 기반으로 동작을 최적화하십시오 다른 에이전트의 전략에 대한 새로운 정보를 수집 할 때 동적으로 적응 . 현재는 잘 알려진 잘 알려진 시스템이 없으며,이 시스템은 실제 세계에서 자율적 인 방식으로 이러한 모든 행동을 할 수 있습니다. 그러나 최근 AI 시스템의 발전과 변화가있을 수있는 LLM의 급속한 상승을 감안할 때!
게임 이론의 다른 중요한 개념 전략 AI에 대한 추가 논의를 진행하기 전에 게임 이론에서 일부 개념과 아이디어를 검토하는 것이 유용 할 수 있습니다. 전략적 AI를 중심으로 한 많은 작업은 게임 이론 개념의 토대를 가지고 있으며 게임 이론의 이론을 사용하면 일부 게임과 상황이 다른 게임보다 쉽게 다룰 수있는 특정 속성의 존재를 보여줄 수 있습니다. 또한 실제 상황과 관련하여 게임 이론의 단점 중 일부를 강조하고 영감을 얻기 위해 다른 방향을 보는 것이 더 나을 수있는 곳을 강조합니다. . 게임이란 무엇입니까?
우리는 게임을 세 가지 주요 구성 요소로 구성된 수학적 모델로 정의합니다.
플레이어 : 개인 또는 단체가 결정을 내립니다 전략
: 각 플레이어가 채택 할 수있는 가능한 조치 또는 계획. Payoffs
: 각 플레이어가 선택한 전략을 기반으로받는 보상 또는 결과.
이 공식적인 구조는 전략적 상호 작용 및 의사 결정 과정에 대한 체계적인 연구를 허용합니다. 유한과 무한 게임 게임에서 말할 때 유한 게임과 무한 게임의 차이점을 보는 것이 합리적입니다. 유한 게임에는 고정 된 플레이어 세트, 정의 규칙 및 명확한 엔드 포인트가 있습니다. 목표는이기는 것이며, 사례에는 체스, Go, 체커 및 대부분의 전통적인 보드 게임이 포함됩니다. 반면에 무한 게임에는 미리 정해진 엔드 포인트가 없으며 규칙은 시간이 지남에 따라 진화 할 수 있습니다. 목표는이기는 것이 아니라 계속 연주하는 것입니다. 비즈니스 경쟁이나 사회적 진화와 같은 실제 시나리오는 무한 게임으로 볼 수 있습니다. 냉전은 무한 게임의 예로 볼 수 있습니다. 그것은 미국과 동맹국들 (서부)과 소비에트 연방과 동맹국 (동아시아) 사이의 지정 학적 투쟁이었습니다. 갈등은 고정 된 종말점이 없었으며 전략과 "규칙"은 시간이 지남에 따라 진화했습니다. 서브 게임 때때로 우리는 더 큰 게임 컨텍스트에서 작은 게임을 찾을 수 있습니다. 수학적으로 서브 게임은 자체적으로 자체 포함 된 게임이며 몇 가지 다른 기준을 충족시켜야 할 필요성이 있습니다.
서브 게임은 플레이어가 게임의 위치를 정확히 알고있는 지점에서 시작됩니다. 그것은 그 시점에서 따를 수있는 모든 가능한 조치와 결과를 포함합니다.
. 그것은 그러한 행동과 관련된 모든 플레이어의 지식과 불확실성을 포함합니다.
전체 게임을 나타내는 큰 트리를 상상하면 서브 게임을 시각화 할 수 있습니다. 하위 게임은 특정 지점 (노드)에서 시작 하여이 트리의 분기를 선택하고 그로부터 확장되는 모든 것을 포함하는 동시에이 분기 내에서 불확실성이 완전히 표시되도록 보장합니다.
. 하위 게임의 핵심 아이디어는 전략 AI에 대한 토론에 유용합니다. 그 이유는 주로 플레이어들 사이의 일부 무한 게임이 매우 복잡하고 모델링하기 어려울 수 있지만, 그 게임 내에서 작은 게임을 보려면 게임 이론적 분석을 더 많이 적용 할 수 있기 때문입니다.
. 냉전으로 무한 게임으로 우리의 예로 돌아 오면 해당 컨텍스트 내에서 여러 서브 게임을 인식 할 수 있습니다. 몇 가지 예는 다음과 같습니다.
쿠바 미사일 위기 (1962) :

선수 : 미국과 소비에트 연방.

전략
: 미국은 외교 협상에서 군사 침공에 이르기까지 다양한 옵션을 고려한 반면, 소비에트 연방은 미사일을 제거 할 것인지 대결을 확대할지 여부를 결정해야했습니다.

지불금 : 핵전쟁을 피하고, 전 세계 이미지 유지 및 전략적 군사 포지셔닝을 피하십시오. 베를린 봉쇄와 공수 (1948–1949) :

선수 : 서구 동맹국과 소비에트 연방 전략 : 소비에트는 베를린을 막아 동맹국을 밀어내는 반면, 동맹국은 도시를 포기하거나 공기를 통해 공급하는 것 사이를 결정해야했습니다.

지불금 : 베를린을 통제하고, 정치적 결의를 보여주고, 유럽 조정에 영향을 미치는 것. 물론 다루기가 매우 어렵고 복잡하지만 두 "서브 게임"은 냉전 전체보다 분석하고 응답을 개발하기가 더 쉽습니다. 그들은 정의 된 플레이어 세트, 제한된 전략과 보수 세트, 그리고 더 명확한 기간을 가지고있었습니다. 이로 인해 게임 이론적 분석에 더 적용 할 수 있습니다. 전략 AI의 맥락에서, 이러한 하위 게임을 분석하는 것은 복잡하고 역동적 인 환경에서 최적의 결정을 내릴 수있는 지능형 시스템을 개발하는 데 중요합니다. 두 플레이어 게임 두 플레이어 게임은 단순히 두 선수 사이의 게임입니다. 이것은 예를 들어 두 체스 선수 사이의 게임이거나 냉전 예인 서쪽 대 동쪽으로 돌아올 수 있습니다. 게임에 두 명의 플레이어 만 있으면 분석이 단순화되지만 여전히 필수 경쟁 또는 협력 역학을 포착합니다. 게임 이론의 많은 결과는 두 플레이어 게임을 기반으로합니다.
제로 --섬 게임
Zero-Sum 게임은 한 선수의 이득이 다른 플레이어의 손실 인 게임의 하위 집합입니다. 총 보상은 일정하게 유지되며 플레이어는 직접 경쟁하고 있습니다.
내쉬 평형 및 최적의 동작 NASH 평형 (NE)은 다른 플레이어가 변하지 않는다고 가정 할 때 일방적으로 자신의 전략을 변경함으로써 플레이어가 추가 혜택을 얻을 수없는 일련의 전략입니다. 이 상태에서 각 플레이어의 전략은 다른 플레이어의 전략에 대한 최상의 반응으로, 어떤 플레이어도 이탈 할 인센티브가없는 안정적인 결과로 이어집니다.

. 예를 들어, 게임 록 파이퍼-가위 (RPS)에서 NE는 모든 플레이어가 무작위로 록, 종이 및 가위를 연주하는 상태입니다. 플레이어로서 NE 전략을 플레이하기로 선택한 경우 다른 플레이어가 플레이를 악용 할 수없고 두 명의 플레이어 제로섬 게임에서는 기대치를 잃지 않을 것이며 최악의 상황이라는 것을 알 수 있습니다. 파손도됩니다. 그러나, NE 전략을하는 것이 항상 최적의 전략이 아닐 수도 있습니다. 특히 상대방이 예측할 수있는 차선책으로 플레이하는 경우. 플레이어 B가 종이를 더 많이 연주하기 시작하면 플레이어 A는 이것을 인식하고 가위를 연주하는 빈도를 높일 수 있습니다. 그러나 A 와의이 편차는 다시 B에 의해 다시 악용 될 수 있으며, 이는 더 많은 바위를 바꿀 수 있습니다. 전략적 ai
에 관한 주요 테이크 아웃 게임 이론 개념을 검토하면 서브 게임의 아이디어가 전략적 AI에 특히 유용한 것 같습니다. 더 큰 맥락에서 게임을 분석하는 것이 작고 쉽게 분석 할 수있는 기능을 통해 이미 알고있는 솔루션과 솔버를 쉽게 적용 할 수 있습니다. 예를 들어, , 당신이 당신의 경력을 개발하기 위해 노력하고 있다고 가정 해 봅시다. 이는 무한 게임으로 분류되고 "해결하기 어려운"일이지만 갑자기 새로운 계약을 협상 할 수있는 기회를 얻습니다. 이 협상 프로세스는 경력 내에서 하위 게임의 기회를 제공하며 게임 이론 개념을 사용하는 전략적 AI에 훨씬 더 접근하기 쉬울 것입니다.
. 실제로, 인간은 수천 년 동안 우리 삶에서 서브 게임을 만들어 왔습니다. 약 1500 년 전 인도에서 우리는 현재 체스로 알려진 기원을 만들었습니다. 체스는 AI가 이길 수있는 과제로 판명되었지만 훨씬 더 복잡하고 어려운 전략적 상황에 사용될 수있는 더 성숙한 도구와 기술을 개발할 수있었습니다.
. 게임에서 전략적 AI의 짧은 역사

게임은 전략적 AI를 개발하기위한 놀라운 입증 근거를 제공했습니다. 게임의 닫힌 특성으로 인해 개방형 시스템보다 모델을 더 쉽게 훈련시키고 솔루션 기술을 개발할 수 있습니다. 게임은 명확하게 정의됩니다. 플레이어는 알려져 있으며 보상도 마찬가지입니다. 가장 크고 초기의 이정표 중 하나는 딥 블루 (Deep Blue)였습니다. 초기 이정표 : 딥 블루
Deep Blue는 1990 년대 IBM이 개발 한 체스 플레이 슈퍼 컴퓨터였습니다. 프롤로그에서 언급 한 바와 같이, 1997 년 5 월에 6 경기 경기에서 지배하는 세계 체스 챔피언 Garry Kasparov를 물리 쳤다. Deep Blue는 초당 2 억 체스 위치를 평가할 수있는 특수 하드웨어 및 알고리즘을 사용했습니다. Brute-Force 검색 기술과 휴리스틱 평가 기능을 결합하여 이전 시스템보다 잠재적 인 이동 시퀀스를 더 깊이 검색 할 수있었습니다. Deep Blue Special을 만든 것은 체스의 조합 복잡성을 효과적으로 처리하고 인공 지능에서 중요한 이정표를 표시하는 방대한 수의 위치를 빠르게 처리하는 능력이었습니다. 그러나 Gary Kasparov가 Lex Fridman¹과의 인터뷰에서 언급했듯이 Deep Blue는 다른 어떤 것보다 무차별 인 힘 기계에 가깝기 때문에 모든 유형의 지능으로 자격을 갖추기가 어려울 수 있습니다. 검색의 핵심은 기본적으로 시행 착오입니다. 그리고 오류에 관해 말하면, 그것은 인간보다 오류가 훨씬 적으며, Kasparov에 따르면 이것은 이길 수없는 특징 중 하나입니다.
. 복잡한 게임의 발전 : Alphago 체스에서 딥 푸른 승리를 거친 지 19 년이 지난 지금, 구글의 깊은 사람의 한 팀은 AI 역사상 특별한 순간에 기여할 또 다른 모델을 만들어 냈습니다. 2016 년 Alphago는 세계 챔피언 GO 선수 인 Lee Sedol을 물리 치는 최초의 AI 모델이되었습니다. GO는 아시아에서 기원을 가진 매우 오래된 보드 게임으로, 깊은 복잡성과 수많은 가능한 직책으로 유명하며 체스에서 훨씬 더 많은 위치를 초과합니다. Alphago는 깊은 신경 네트워크와 Monte Carlo Tree 검색을 결합하여 위치를 평가하고 계획을 효과적으로 평가할 수 있습니다. Alphago가 추론에 더 많은 시간을 주었다. AI는 인간 전문가 게임의 데이터 세트를 훈련시키고 자체 놀이를 통해 더욱 향상되었습니다. Alphago Special을 만든 것은 고급 머신 러닝 기술을 활용하여 이전에 AI Mastery에 저항하는 것으로 생각되는 도메인에서 초인간적 성능을 달성하기 위해 GO의 복잡성을 처리하는 능력이었습니다.는 보드 상태를 깊이 평가하고 움직임을 선택할 수있는 탁월한 능력을 감안할 때 Alphago가 Deep Blue보다 더 많은 지능을 전시한다고 주장 할 수 있습니다. Lee Sedol과의 2016 경기에서 37 번 이동은 전형적인 예입니다. Go에 익숙한 사람들에게는 5 번 라인에서 어깨 히트였으며 처음에는 Lee Sedol 자신을 포함한 해설자들을 당황했습니다. 그러나 나중에 분명 해지면서, 움직임은 훌륭한 플레이였으며 Alphago가 인간 플레이어가 간과하고 무시할 수있는 전략을 탐색하는 방법을 보여주었습니다.
. 체스와 GO를 결합 : 알 파자로 1 년 후, Google Deepmind는 다시 헤드 라인을 만들었습니다. 이번에는 Alphago에서 많은 학습을 취하고 Alphazero를 만들었습니다. Alphazero는 체스를 마스터하는 일반 목적 AI 시스템과 Go and Shogi를 만들었습니다. 연구원들은 사전 인간의 지식이나 데이터없이 자체 놀이 및 강화 학습을 통해 전적으로 AI를 구축 할 수있었습니다. 수제 평가 기능 및 광범위한 오프닝 라이브러리에 의존하는 전통적인 체스 엔진과 달리 Alphazero는 깊은 신경망과 몬테 카를로 트리 검색을 자체 학습과 결합한 새로운 알고리즘을 사용했습니다. 시스템은 기본 규칙만으로 시작했으며 수백만의 게임 자체에 대해 최적의 전략을 배웠습니다. Alphazero Special을 특별하게 만든 것은 창의적이고 효율적인 전략을 발견하는 능력이었습니다. 속도와 전략 통합 : 스타 크래프트 II
AI 공간에서 지배를 계속하면서 Google Deepmind 팀은 인기있는 컴퓨터 게임 인 Starcraft II로 초점을 바꿨습니다. 2019 년에 그들은 Alphastar²라는 AI를 개발하여 Grandmas Starcraft II는 DeepMind 팀에게 몇 가지 새로운 도전을 제공하는 실시간 전략 게임입니다. 이 게임의 목표는 자원을 모으고, 건물을 건설하고 상대를 물리 칠 수있는 군대를 축적함으로써 상대 선수 나 플레이어를 정복하는 것입니다. 이 게임의 주요 과제는 고려해야 할 막대한 행동 공간, 실시간 의사 결정, 전쟁의 안개로 인한 부분적 관찰 가능성 및 장기 전략 계획의 필요성, 일부 게임은 몇 시간 동안 지속될 수 있으므로 발생합니다.
자체 플레이 및 심층 신경망을 통한 강화 학습과 같은 이전 AI를 위해 개발 된 일부 기술을 구축함으로써 팀은 고유 한 게임 엔진을 만들 수있었습니다. 첫째, 그들은 감독 학습과 인간 놀이를 사용하여 신경 그물을 훈련시켰다. 그런 다음 그들은 다중 에이전트 게임 프레임 워크에서 스스로 재생할 수있는 또 다른 알고리즘을 시드하는 데 사용했습니다. DeepMind 팀은 에이전트가 서로에 대한 전략을 탐색 할 수 있고 지배적 인 전략이 보상되는 가상 리그를 만들었습니다. 궁극적으로 그들은 리그의 전략을 많은 다른 상대와 전략에 효과적 일 수있는 슈퍼 전략으로 결합했습니다. 그들 자신의 말로 :

최종 알파스타 에이전트는 리그의 NASH 분포의 구성 요소로 구성됩니다. 즉, 단일 데스크탑 GPU에서 실행되는 가장 효과적인 전략의 혼합. >
Pluribus와 Poker 로의 깊은 다이빙

나는 포커를하는 것을 좋아하고, 트론 하임에서 살고 공부할 때, 우리는 매주 현금 게임을했습니다. 전략적 AI에 의해 일식 된 마지막 이정표 중 하나는 포커 게임에있었습니다. 특히, 가장 인기있는 포커 형태 중 하나 인 6 플레이어 No-Limit Texas Hold'em. 이 게임에서 우리는 52 장의 카드를 가진 일반 카드 데크를 사용하며 연극은 다음 구조를 따릅니다.

프리 플롭 : 모든 플레이어는 2 개의 카드 (홀 카드)가 주어집니다. 플롭 : . 턴 : 다른 카드가 그려져 얼굴을 얹습니다. 강 : 마지막 5 번째 카드가 그려져 얼굴을 얹습니다.
플레이어는 테이블의 카드와 손에 두 개의 카드를 사용하여 5 카드 포커 손을 조립할 수 있습니다. 게임의 각 라운드마다 플레이어는 베팅을 차례로 배치하고 한 선수가 다른 사람이 전화를하지 않는 베팅을하면 게임이 어느 라운드에서 끝날 수 있습니다. 배우기가 합리적으로 간단하지만 다양한 포커 핸즈의 계층 구조 만 알아야하지만,이 게임은 수십 년 동안 지속적인 노력에도 불구하고 AI와 함께 해결하기가 매우 어려웠습니다. . 포커 해결의 어려움에 기여하는 여러 가지 요소가 있습니다. 첫째, 다른 플레이어가 어떤 카드를 가지고 있는지 알지 못하기 때문에 숨겨진 정보 문제가 있습니다. 둘째, 많은 플레이어와 함께 멀티 플레이어 설정이 있으며, 각 추가 플레이어는 가능한 상호 작용과 전략의 수를 기하 급수적으로 증가시킵니다. 셋째, 우리는 한 번의 플레이어가 갑자기 전체 스택을 베팅하기로 결정할 수있는 복잡한 베팅 구조를 허용하는 비 제한 베팅 규칙을 가지고 있습니다. 넷째, 홀 카드, 커뮤니티 카드 및 베팅 시퀀스의 조합으로 인해 엄청난 게임 트리 복잡성이 있습니다. 또한, 우리는 카드의 확률 적 특성, 블러 핑 가능성 및 상대 모델링으로 인해 복잡성이 있습니다!
2019 년에 몇 명의 연구원 인 Noam Brown과 Tuomas Sandholm이 마침내 코드를 깨뜨 렸습니다. 과학에 출판 된 논문에서, 그들은 6 인의 No-Limit Texas Hold'em에서 세계 최고의 선수들을 이길 수있는 새로운 포커 AI-Pluribus를 묘사합니다. 그들은 각각 10000으로 구성된 두 가지 실험을 수행했습니다. 포커 손과 두 실험 모두 Pluribus의 우세를 분명히 보여주었습니다.
첫 실험에서 Pluribus는 5 명의 인간 반대자들과 대결하여 평균 48MBB/게임의 평균 승리율을 달성했으며 표준 편차는 25MBB/게임입니다. (MBB/Game은 게임당 Milli Big Blind, 1000 게임당 몇 개의 빅 블라인드가 이겼습니다.) 48MBB/게임은 특히 엘리트 포커 플레이어들 사이에서 매우 높은 승리율로 간주되며 Pluribus가 인간의 반대자.
두 번째 실험에서 연구원들은 1 인간에 대한 5 가지 버전의 Pluribus Play를 가졌다. 그들은 실험을 설정하여 2 명의 다른 인간이 각각 5 개의 기계에 대해 각각 5000 개의 손을 연주 할 수 있도록 실험을 설정했습니다. Pluribus는 표준 오류가 15MBB/게임의 평균 32MBB/게임으로 인간을 때리고 다시 전략적 우수성을 보여주었습니다. Pluribus의 지배력은 특히 놀라운 일입니다. 특히 연구자들이 극복해야 할 모든 복잡성을 감안할 때. Brown과 Sandholm은 Pluribus가 이전 Top Poker AIS보다 초인간적이고 계산적으로 훨씬 더 효율적이되는 데 도움이되는 몇 가지 현명한 전략을 제시했습니다. 그들의 기술 중 일부는 다음과 같습니다
이동을 평가하기위한 두 가지 다른 알고리즘 사용. 그들은 먼저 소위 "청사진 전략"을 사용하여 Monte Carlo Countervalual 후회 최소화라는 방법을 사용하여 프로그램이 스스로 플레이하도록함으로써 만들어졌습니다. 이 청사진 전략은 첫 번째 베팅 라운드에서 사용될 것이지만, 후속 베팅 라운드에서 Pluribus는 더 나은 세분화 된 전략을 찾기 위해 실시간 검색을 수행합니다.
. 실시간 검색 알고리즘을보다 계산적으로 효율적으로 만들려면, 부서 제한 검색을 사용하고 상대방이 선택할 수있는 4 가지 가능한 전략을 평가합니다. 첫째, 그들은 2 개의 움직임에 대한 각 전략을 평가할 것입니다. 또한, 그들은 원래의 청사진 전략, 접기에 편향된 청사진 전략, 전화에 편향된 청사진 전략 및 제기를 향한 최종 청사진 전략을 포함하여 상대방에 대한 4 가지 다른 전략 만 평가할 것입니다.
. 그들은 또한 다양한 추상화 기술을 사용하여 가능한 게임 상태의 수를 줄였습니다. 예를 들어, 9 높은 직선은 근본적으로 8 하이 스트레이트와 비슷하기 때문에 비슷한 방식으로 볼 수 있습니다.
Pluribus는 연속 베팅 공간을 제한된 버킷 세트로 이산화하여 다양한 베팅 크기를 더 쉽게 고려하고 평가할 수 있습니다. 또한 Pluribus는 주어진 손에 대해 연주하는 모든 손에 대해 전략 균형을 맞추고, 그러한 상황에서 가질 수있는 다른 손을 고려하고 그 손을 어떻게 연주 할 것인지 평가하여 최종 플레이가 균형을 잡아서 반대하기가 더 어렵습니다.

Pluribus에서 끌어들이는 흥미로운 관찰은 몇 가지 있지만, 아마도 가장 흥미로운 점은 다른 상대와의 경기를 다양하지 않지만 다양한 플레이어에 대해 효과적인 강력한 전략을 개발했다는 것입니다. 많은 포커 플레이어가 다양한 상황과 사람들에게 자신의 놀이를 조정해야한다고 생각하기 때문에 Pluribus는 이것이 필요한 모든 인간을 어떻게 이겼는지를 감안할 때 이것이 필요하지 않으며 아마도 최적이지 않다는 것을 보여줍니다.
. 게임 이론에 대한 짧은 진출에서, 우리는 당신이 2 플레이어 제로섬 게임에서 NE 전략을 플레이하면 기대치를 잃지 말아야한다고 언급했습니다. 그러나 6 플레이어 포커와 같은 멀티 플레이어 게임의 경우 그러한 보증은 없습니다. Noam Brown은 아마도 Poker와 같은 게임의 적대적 특성 일 것이므로 여전히 NE 전략으로 접근하는 데 적합합니다. 반대로, 플레이어가 더 협력 할 수있는 위험과 같은 게임에서, NE 전략을 추구하는 것은 6 명과 위험 게임을하는 경우 5 명의 상대가 갱단을 결정하면 할 수있는 일은 없기 때문입니다. 당신에게 그리고 당신을 죽입니다.
전략적 ai
의 추세 평가 게임에서 전략적 AI의 역사를 요약하면, 우리는 분명한 트렌드가 나타나는 것을 볼 수 있습니다. 게임은 느리지 만 반드시 인간이 매일 자신을 발견하는 실제 전략적 상황에 더 가까워지고 있습니다.
. 첫째, 우리는 2 플레이어에서 멀티 플레이어 설정으로 이동하고 있습니다. 이것은 2 인 게임의 초기 성공에서 6 플레이어 포커와 같은 멀티 플레이어 게임에 이르기까지 볼 수 있습니다. 둘째, 우리는 숨겨진 정보로 게임의 숙달이 증가하고 있습니다. 셋째, 우리는 또한 확률 론적 요소를 가진 게임의 숙달이 증가하고 있습니다.
숨겨진 정보, 멀티 플레이어 설정 및 확률 론적 사건은 인간의 전략적 상호 작용의 예외가 아니라 표준이므로 이러한 복잡성을 마스터하는 것은 현실 세계에서 탐색 할 수있는보다 일반적인 초인간 전략 AI를 달성하는 데 핵심입니다. 대형 언어 모델 및 전략적 ai

나는 최근에 LLM이 서로에 대해 보드 게임 위험을 플레이하게하는 실험을 진행했습니다. 실험에 대한 나의 목표는 LLM이 전략적 환경에서 얼마나 잘 수행 할 수 있는지를 측정하는 것이 었습니다. 올바른 맥락을 제공하기 위해 에이전트에게 상당히 상세한 프롬프트가 주어졌지만, 아마도 LLM 성능은 다소 평범했습니다.
. 실험에 관한 기사를 여기에서 찾을 수 있습니다
위험 게임 설정에서 LLM의 전략적 능력 탐색
실험의 주요 결과 중 일부를 요약하면, 현재 세대의 LLMS는 강화 및 승리 동작 인식과 같은 기본 전략적 개념으로 어려움을 겪고 있습니다. 그들은 또한 다른 플레이어를 제거하는 것이 전략적으로 유익했을 때 다른 플레이어를 제거하지 못합니다.
. 위의 실험은 우리가 LLM의 빠른 개선을 보였지만 여전히 전략적 추론에 대한 정교함이 부족함을 나타냅니다. 그들의 일반적인 훈련 데이터와 그들이 어떻게 구성되었는지를 감안할 때 이것은 놀라운 일이 아닙니다.
. 그렇다면 전략 AI에 대한 토론에 어떻게 적합합니까? 이를 이해하려면 LLM이 실제로 무엇을 탁월한 지 이해해야합니다. 아마도 LLM의 가장 유망한 특징은 아마도 방대한 양의 텍스트를 소화하고 생성하는 능력입니다. 그리고 이제 멀티 모달 모델, 비디오 및 오디오도 있습니다. 다시 말해, LLM은 인간 및 기타 맥락에서 현실 세계와 상호 작용하는 데 적합합니다. 최근 Meta의 AI 팀은 언어 모델의 일반적인 언어 기능을 전략 엔진의 전략적 통찰력과 결합 할 수있었습니다. 사례 연구 : Cicero and Diplomacy
외교 게임은 2 ~ 7 인 전략 게임으로, 메타는 위험, 포커 및 TV 쇼 생존자의 혼합으로 묘사합니다. 플레이어는 유럽지도로 시작합니다. 1900 년, 목표는 대부분의 공급 센터를 통제하는 것입니다. 특히, 플레이어는 승리를 달성하기 위해 34 개 공급 센터 중 18 개를 제어하는 것을 목표로합니다. 그렇게함으로써, 선수는 제 1 차 세계 대전으로 이어지는 시대에 유럽에 대한 국가의 승천을 대표하는지도를 효과적으로 지배합니다. 우리가 지금까지 논의한 다른 많은 게임과 차별화되는 것은 플레이어 간의 협상에 의존하는 것입니다. 예를 들어 포커보다 훨씬 협력적인 형태의 플레이입니다. 각 플레이어는 자연 언어를 사용하여 매 턴 전에 다른 플레이어와 의사 소통하며 서로 동맹국을 계획합니다. 준비가 완료되면 모든 플레이어는 동시에 계획을 공개하고 턴이 실행됩니다. 이러한 유형의 게임은 분명히 대부분의 다른 보드 게임보다 실제 외교와 실제 협상과 비슷하지만 자연어 구성 요소로 인해 AI가 마스터하기가 매우 어려웠습니다.
. 이것은 2022 년 Meta의 AI 팀이 Cicero를 개발했을 때 변경되었습니다. Cicero는 전략 모듈과 결합 된 언어 모델링의 최신 발전을 사용하여 "인간 플레이어의 평균 점수의 두 배 이상을 달성하고 하나 이상의 게임을 한 참가자의 상위 10%에서 순위를 매길 수있는 게임 엔진이었습니다. . "⁶ Meta가 설명하는 것처럼, 그들의 모델은 전략적 대화 대화를 생성하고 대화 인식-스트레이트를 생성 할 수 있습니다.
. Cicero와 다른 전략 AI 모델의 차이 외교와 최근 전략적 AI 발전이 있었던 다른 게임들 사이에는 몇 가지 주요 차이점이 있습니다. 가장 주목할만한 것은 다른 게임의 적대적 특성과 비교할 때 게임의 협력 적 특성과 그것이 사용하는 개방형 자연 언어 형식입니다. 나는 이러한 차이로 인해 게임이 실제 인간의 상호 작용과 비슷하다고 주장하지만, 연구가 Cicero에 전원을 공급하는 알고리즘을 훈련시킬 수있는 방법에 대한 제한을 제한합니다. Pluribus 및 Alphazero와 달리 Cicero는 주로 자체 연극 및 강화 학습을 통해 훈련되지 않습니다. 대신, 메타 팀은 125,000 개가 넘는 게임과 40,000,000 개의 메시지가있는 데이터 세트를 사용하여 알고리즘을 훈련 시켰습니다. 그들은 게임의 협상, 설득 및 신뢰 구축 측면을 감안할 때, AI가 자기 놀이를 통해 자신과 협상하게하면 인간의 상호 작용의 본질을 포착하지 못하면 이상한 행동을 볼 수 있다고 생각했다. 그들의 연구 기사 인용 :
"… 우리는 2P0 버전의 게임에서 초 인간적인 성능을 달성 한 자체 플레이 알고리즘이 잠재적 인 인간 동맹국의 규범과 기대치와 일치하지 않는 정책을 배우기 때문에 여러 인간 플레이어와 게임에서 제한적으로 성능이 떨어지는 것을 발견했습니다. "

그러나 그러나 강화 학습은 전략 엔진의 일부를 훈련시키는 데 사용되었으며, 특히 Cicero의 가치 기능을 훈련시키는 데 사용되었습니다. 이는 행동의 유용성을 예측해야합니다. 연구원들은 행동으로 예상되는 유틸리티를 극대화하고 동시에 인간 행동의 발산을 최소화하기 위해 수정 된 행동 클로닝 버전의 행동 클로닝 버전을 사용했습니다. 동시에 인간의 행동에 가까워지는 동안.
외교의 위의 특징은 실제 인간 환경에서 작동 할 수있는 전략적 AI를 만드는 것과 관련된 몇 가지 중요한 문제를 강조하며, 전략적 AI가 어떻게 발전 할 것인지를 평가할 때 고려해야 할 때 고려해야합니다.
. 전략적 ai
의 미래
미래를 예측하는 것은 항상 까다 롭지 만, 한 가지 접근법은 현재 추세를 사용하고 미래 시나리오에 외삽하는 것입니다. 아래에서, 우리는 이전 토론과 밀접한 관련이있는 몇 가지 주제를 조사하고 전략 AI의 미래에 어떻게 영향을 줄 수 있는지 평가합니다. 일반 기호 전략 엔진 대 특수 모듈
우리가 지금까지 전략적 AI 엔진의 궤적을 조사한다면, 우리를 놀라게하는 한 가지는 각 게임 엔진이 얼마나 전문화되는지입니다. Alphazero가 여러 다른 게임을하는 방법을 배우는 것과 같이 아키텍처는 비슷할 수 있지만 AI는 여전히 특정 게임마다 수백만 개의 게임을합니다. 체스의 경우 Alphazero는 4,400 만 게임을했고 1 억 3 천만 게임을했습니다! 일반 전략 엔진은 다양한 상황에서 광범위한 전략적 원칙을 이해하고 적용하는 것을 목표로합니다. 아마도 인간의 전략적 상호 작용의 여러 측면을 포착하는 게임을 만들어 AI는 스스로 놀이를 통해 배우고 실제 시나리오에 적용되는 전략을 개발할 수 있습니다. 이 접근법은 AI가 학습을 일반화하여 다양한 맥락에서 유용하게하는 데 도움이 될 수 있습니다.
반면에, 특수 모듈은 특정 시나리오 또는 작업을 위해 설계된 AI 시스템입니다. 우리는 여러 전문 에이전트를 결합하여 일반적인 전략 AI를 만들 수 있다고 생각할 수 있습니다. AI 에이전트는 각 특정 영역에서 뛰어나도록 훈련 될 수 있으며, 가장 필요한 곳에 깊은 전문 지식을 제공 할 수 있습니다. 이 방법은 AI의 일반화 능력을 제한 할 수 있지만 특정 도메인에서 고성능을 보장하여 실제 응용 프로그램을보다 빠르게 이끌어 낼 수 있습니다.
. 외교에서 관찰 한 바와 같이 협력 환경에서 자체 플레이에 AI를 사용하는 데 문제가 주어지고 다른 전략적 상황에 대한 전문 모듈을 선호하는 현재 추세는 가까운 시일 내에 전문화 될 것 같습니다. 다른 맥락을위한 전략적 모듈. 그러나 일반 전략 엔진을 사용하여 광범위한 주제에 대한 통찰력을 제공하는 혼합 시스템을 구상 할 수있는 반면, 특수 모듈은 복잡하고 구체적인 과제를 처리합니다. 이 균형은 AI 시스템이 특정 상황의 세부 사항에 적응하면서 일반적인 전략적 통찰력을 적용 할 수 있습니다. llms 전략 모듈과 실제 응용 프로그램 간의 격차를 해소 큰 언어 모델은 AI가 인간 언어와 상호 작용하는 방식을 바꾸어 전략 AI 모듈을 실제 사용 사례와 연결하는 강력한 방법을 제공합니다. LLM은 인간과 같은 텍스트를 이해하고 생성하는 데 능숙하며, 실제 상황을 전략 엔진이 처리 할 수있는 구조화 된 데이터로 변환 할 수있는 중개자로 이상적입니다. Meta의 Cicero에서 볼 수 있듯이 LLM을 전략적 추론과 결합하여 AI는 협력 환경에서 인간의 의사 소통을 이해하고 협상 및 계획을 계획 할 수있었습니다. 더 많은 멀티 모달 모델에 대한 현재 추세를 감안할 때 LLM은 텍스트뿐만 아니라 실제 컨텍스트를 기계 읽기 가능한 구문으로 번역 할 수 있습니다. 이것은 모델을 중개자로 더 유용하게 만듭니다 Cicero를 위해 개발 된 아이디어를 기반으로한다면, 외교 커뮤니케이션과 같은 특정 작업에 대한 다양한 언어 모델을 미세 조정 한 다음 아마도 역사적 외교적 서신에 대한 모델을 미세 조정 한 다음 별도의 전략 엔진을 교육함으로써 등장 할 수도 있습니다. 최적의 행동으로. 인간-아이 협력 : Centaur 모델
전략 AI의 미래는 의사 결정을 인수하는 기계에 관한 것이 아닙니다. 전환 기간 동안 그것은 또한 인간과 AI가 효과적으로 함께 일하는 것에 관한 것입니다. 이 파트너십은 종종 "Centaur Model"이라고하며 인간 직관을 AI의 컴퓨팅 성능과 결합합니다. 이 모델에서 인간은 창의성, 윤리적 판단 및 유연성을 가져 오는 반면 AI 시스템은 강력한 데이터 처리와 전략적 원칙의 일관된 적용을 제공합니다.이 모델의 실제 사례에는 인간 -AI 팀이 인간이나 기계 만 능가하는 영역이 포함됩니다. 예를 들어 체스에서 Garry Kasparov는 AI와 팀을 구성한다는 아이디어를 홍보하여 Human Strategic Insight와 AI의 정확한 계산을 결합했습니다. Centaur 모델은 프로그램이 정말 좋아지기 시작할 때까지 체스에서 잘 작동하는 것처럼 보였습니다. 그 시점에서 인간의 기여는 가치가 없었으며 최악의 경우에 해를 끼쳤습니다.
그러나 그러나 체스보다 개방적이고 실제와 같은 다른 영역에서는 Centaur 모델이 앞으로 좋은 내기 일 것입니다. Modern LLMS와의 인간 협업이 생산성을 크게 향상시킬 수있는 잠재력을 갖는 방법을 고려하십시오. 이 협업 접근법은 인간의 판단을 AI 분석과 결합하여 의사 결정을 향상시켜 더 많은 정보를 얻고 균형 잡힌 결과를 초래할 수 있습니다. 인간은 AI 지원으로 실시간으로 전략을 조정할 수 있으므로 새롭고 예상치 못한 상황에 빠르게 적응할 수 있습니다. 게임 이외의 실제 응용 프로그램

게임은 전략적 AI를 개발하기위한 훌륭한 테스트 토단 이었지만 실제 영향은 이러한 발전을 실제 문제에 적용함으로써 발생합니다. 아래에서 우리는 몇 가지 예를 강조합니다.
지난 몇 년 동안 엄청난 발전을 보인 한 분야는 자율 주행 자동차이며 전략 AI를 사용하여 도로를 안전하게 탐색하는 방법입니다. 그들은 다른 운전자, 보행자 및 자전거 운전자의 행동을 예측하고 대응해야합니다. 예를 들어, 자율 주행 차는 보행자가 길을 건너려고하는지 또는 다른 운전자가 예기치 않게 차선을 변경하려고하는지 예상해야합니다. 올해 자율 주행 차량과 승차원 서비스를 개발하는 회사 인 Waymo는 피닉스, 애리조나, 캘리포니아의 로스 앤젤레스 및 샌프란시스코의 세 가지 도시에서 완전히 자율적 인 택시를 사용하기 시작했습니다. 앞으로 몇 년 동안 우리는 전략적 AI의 개선으로 인해 완전히 자율 주행 차량이 크게 증가 할 것으로 예상 할 수 있습니다. 금융 시장에서 AI 중심 거래 시스템은 막대한 양의 데이터를 분석하여 투자 결정을 내립니다. 이 시스템은 시장 운동을 예상하기 위해 트레이더 및 기관과 같은 다른 시장 참여자의 행동을 고려합니다. 그들은 전략적 추론을 사용하여 위험을 최소화하면서 종종 휘발성이 높은 환경에서 수익을 극대화하는 거래를 실행합니다. AI 시스템은 또한 공급 업체, 경쟁 업체 및 고객의 행동을 고려하여 공급망을 최적화합니다. 예상 수요 및 경쟁 업체 행동에 따라 생산 일정, 재고 수준 및 물류를 전략적으로 조정할 수 있습니다. 예를 들어, 경쟁 업체가 신제품을 출시 할 것으로 예상되는 경우 AI는 잠재적 인 수요 증가를 충족시키기 위해 재고 수준을 높이는 권장입니다. 전략 AI는 에너지 분포를 효율적으로 관리하는 데 사용됩니다. 스마트 그리드는 AI를 사용하여 소비 패턴을 예측하고 그에 따라 공급을 조정합니다. 그들은 가격 책정 신호 또는 환경 적 요인에 따라 소비자가 사용을 변화시킬 수있는 방법을 고려합니다. AI는 전략적으로 자원을 균형을 맞추고, 정전을 예방하며, 재생 가능한 에너지 원을 통합합니다. 위의 예는 전략 AI가 다양한 산업 및 분야에 어떻게 통합되고 있는지 명확하게 보여줍니다. 이 AI 시스템은 다른 사람의 행동을 고려함으로써 결과를 최적화하고 효율성을 높이며 종종 경쟁 우위를 제공하는 정보에 근거한 결정을 내립니다. 전략적 AI가 계속 개선되면서 이러한 시스템도 계속 개선 할 것이며, 우리는 다른 많은 영역에서도 그들의 출현을 볼 것입니다.
.
결론
전략 AI는 Deep Blue의 Garry Kasparov에 대한 승리 이후 먼 길을 왔습니다. 복잡한 보드 게임을 마스터하는 것에서 인간과 같은 협상에 이르기까지 AI 시스템은 점점 더 전략적 추론 능력을 보여주고 있습니다. 이 기사에서 우리는 전략 AI의 기본 개념을 조사하여 게임 이론의 중요성과 현장의 일부 개념이 전략 AI에 어떻게 적용될 수 있는지를 강조했습니다. 우리는 또한 좁은 도메인과 광범위한 셀프 플레이에 중점을 두어 특정 게임에서 전문화 된 AI 시스템이 어떻게 특정 게임에서 초 인간적인 성능을 달성했는지 살펴 보았습니다. 이것은 전략적 AI의 미래가 광범위한 응용 프로그램을 제공 할 수있는 일반적인 상징적 전략 엔진을 개발하거나 특정 작업에 맞는 특수 모듈을 계속 개발하는 데 있는지에 대한 의문을 제기합니다. Cicero에서 보았 듯이 언어 모델은 전략 AI의 공간에서 미래를 가질 것입니다. OpenAi, Anthropic 및 Meta와 같은 제공자의 새로운 모델은 이러한 도구를 AI 시스템을 처리 할 수있는 구조화 된 데이터로 변환하는 데 사용될 수있는 자율적 인 에이전트에 이러한 도구를 더 쉽게 통합 할 수있게 해줍니다.
. 그러나 실제 세계의 복잡성을 탐색 할 수있는 범용 전략 AI를 향한 여정은 막 시작되었습니다. 도전 과제는 도메인간에 일반화하고 예기치 않은 상황에 적응하며 윤리적 고려 사항을 의사 결정 과정에 통합 할 수있는 시스템 개발에 남아 있습니다. 읽어 주셔서 감사합니다!
새 기사를 게시 할 때마다 알림을 받고 싶습니까? ➡️ 내 뉴스 레터를 여기에서 구독하십시오. 무료이며 언제든지 구독을 취소 할 수 있습니다!
이 기사를 읽는 것을 좋아하고 더 많은 콘텐츠에 액세스하고 싶다면 https://www.linkedin.com/in/hans-christian-ekne-1760a259의 LinkedIn에서 저와 연결해 주시기 바랍니다. / 또는 https://www.ekneconsulting.com/에서 내 웹 페이지를 방문하여 내가 제공하는 서비스 중 일부를 탐색하십시오. 주저하지 말고 [이메일 보호]

에서 이메일을 통해 연락하십시오
참조
렉스 프리드먼. (2019 년 10 월 27 일). Garry Kasparov : Chess, Deep Blue, AI 및 Putin | Lex Fridman Podcast #46 [비디오 파일]. YouTube. https://youtu.be/8rva0thwuww?si=1ercnwlan4myok9w
Vinyals, O., Babuschkin, I., Czarnecki, W.M. Multi-Agent 강화 학습을 사용하는 Starcraft II의 Grandmaster 수준.
자연 575, 350–354 (2019). https://doi.org/10.1038/s41586-019-1724-z https://deepmind.google/discover/blog/alphastar-mastering-real-strategy-game-starcraft-ii/ <.> Brown et al. (2019 년 8 월 30 일). 멀티 플레이어 포커를위한 초인간 AI. Science 365, 885–890, (2019).
https://www.science.org/doi/epdf/10.1126/science.aay2400 렉스 프리드먼. (2022 년 12 월 6 일). Noam Brown : AI 대 전략 협상의 포커 및 게임에서 인간 | Lex Fridman Podcast #344 [비디오 파일]. YouTube. https://youtu.be/2ohh4acljqs?si=ave_esb42gngiprg 메타 기본 AI 연구 외교 팀 (FAIR) † et al., 외교 의 인간 수준의 플레이. 378 , 1067 1074 (2022) .doi : 10.1126/science.ade9097, https://noambrown.github.io/papers/22-science-diplomacy-tr.pdf

David Silver 체스, 쇼기를 마스터하고 자체 놀이를 마치는 일반적인 강화 학습 알고리즘. Science

362 , 1140–1144 (2018) .doi : 10.1126/Science. AAR6404 https://storage.googleapis.com/deepmind-media/deepmind.com/blog/alphazero-shedding-new-light-onchess-shogi-and-go/alphazero_preprint.pdf

위 내용은 기계가 미리 생각할 때 : 전략 AI의 상승의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.