첫 실험에서 Pluribus는 5 명의 인간 반대자들과 대결하여 평균 48MBB/게임의 평균 승리율을 달성했으며 표준 편차는 25MBB/게임입니다. (MBB/Game은 게임당 Milli Big Blind, 1000 게임당 몇 개의 빅 블라인드가 이겼습니다.) 48MBB/게임은 특히 엘리트 포커 플레이어들 사이에서 매우 높은 승리율로 간주되며 Pluribus가 인간의 반대자.
두 번째 실험에서 연구원들은 1 인간에 대한 5 가지 버전의 Pluribus Play를 가졌다. 그들은 실험을 설정하여 2 명의 다른 인간이 각각 5 개의 기계에 대해 각각 5000 개의 손을 연주 할 수 있도록 실험을 설정했습니다. Pluribus는 표준 오류가 15MBB/게임의 평균 32MBB/게임으로 인간을 때리고 다시 전략적 우수성을 보여주었습니다.
Pluribus의 지배력은 특히 놀라운 일입니다. 특히 연구자들이 극복해야 할 모든 복잡성을 감안할 때. Brown과 Sandholm은 Pluribus가 이전 Top Poker AIS보다 초인간적이고 계산적으로 훨씬 더 효율적이되는 데 도움이되는 몇 가지 현명한 전략을 제시했습니다. 그들의 기술 중 일부는 다음과 같습니다
이동을 평가하기위한 두 가지 다른 알고리즘 사용. 그들은 먼저 소위 "청사진 전략"을 사용하여 Monte Carlo Countervalual 후회 최소화라는 방법을 사용하여 프로그램이 스스로 플레이하도록함으로써 만들어졌습니다. 이 청사진 전략은 첫 번째 베팅 라운드에서 사용될 것이지만, 후속 베팅 라운드에서 Pluribus는 더 나은 세분화 된 전략을 찾기 위해 실시간 검색을 수행합니다. - .
실시간 검색 알고리즘을보다 계산적으로 효율적으로 만들려면, 부서 제한 검색을 사용하고 상대방이 선택할 수있는 4 가지 가능한 전략을 평가합니다. 첫째, 그들은 2 개의 움직임에 대한 각 전략을 평가할 것입니다. 또한, 그들은 원래의 청사진 전략, 접기에 편향된 청사진 전략, 전화에 편향된 청사진 전략 및 제기를 향한 최종 청사진 전략을 포함하여 상대방에 대한 4 가지 다른 전략 만 평가할 것입니다.
.
그들은 또한 다양한 추상화 기술을 사용하여 가능한 게임 상태의 수를 줄였습니다. 예를 들어, 9 높은 직선은 근본적으로 8 하이 스트레이트와 비슷하기 때문에 비슷한 방식으로 볼 수 있습니다. -
Pluribus는 연속 베팅 공간을 제한된 버킷 세트로 이산화하여 다양한 베팅 크기를 더 쉽게 고려하고 평가할 수 있습니다.
또한 Pluribus는 주어진 손에 대해 연주하는 모든 손에 대해 전략 균형을 맞추고, 그러한 상황에서 가질 수있는 다른 손을 고려하고 그 손을 어떻게 연주 할 것인지 평가하여 최종 플레이가 균형을 잡아서 반대하기가 더 어렵습니다.
-
Pluribus에서 끌어들이는 흥미로운 관찰은 몇 가지 있지만, 아마도 가장 흥미로운 점은 다른 상대와의 경기를 다양하지 않지만 다양한 플레이어에 대해 효과적인 강력한 전략을 개발했다는 것입니다. 많은 포커 플레이어가 다양한 상황과 사람들에게 자신의 놀이를 조정해야한다고 생각하기 때문에 Pluribus는 이것이 필요한 모든 인간을 어떻게 이겼는지를 감안할 때 이것이 필요하지 않으며 아마도 최적이지 않다는 것을 보여줍니다.
.
게임 이론에 대한 짧은 진출에서, 우리는 당신이 2 플레이어 제로섬 게임에서 NE 전략을 플레이하면 기대치를 잃지 말아야한다고 언급했습니다. 그러나 6 플레이어 포커와 같은 멀티 플레이어 게임의 경우 그러한 보증은 없습니다. Noam Brown은 아마도 Poker와 같은 게임의 적대적 특성 일 것이므로 여전히 NE 전략으로 접근하는 데 적합합니다. 반대로, 플레이어가 더 협력 할 수있는 위험과 같은 게임에서, NE 전략을 추구하는 것은 6 명과 위험 게임을하는 경우 5 명의 상대가 갱단을 결정하면 할 수있는 일은 없기 때문입니다. 당신에게 그리고 당신을 죽입니다. - 전략적 ai
의 추세 평가
게임에서 전략적 AI의 역사를 요약하면, 우리는 분명한 트렌드가 나타나는 것을 볼 수 있습니다. 게임은 느리지 만 반드시 인간이 매일 자신을 발견하는 실제 전략적 상황에 더 가까워지고 있습니다.
.
첫째, 우리는 2 플레이어에서 멀티 플레이어 설정으로 이동하고 있습니다. 이것은 2 인 게임의 초기 성공에서 6 플레이어 포커와 같은 멀티 플레이어 게임에 이르기까지 볼 수 있습니다. 둘째, 우리는 숨겨진 정보로 게임의 숙달이 증가하고 있습니다. 셋째, 우리는 또한 확률 론적 요소를 가진 게임의 숙달이 증가하고 있습니다.
숨겨진 정보, 멀티 플레이어 설정 및 확률 론적 사건은 인간의 전략적 상호 작용의 예외가 아니라 표준이므로 이러한 복잡성을 마스터하는 것은 현실 세계에서 탐색 할 수있는보다 일반적인 초인간 전략 AI를 달성하는 데 핵심입니다.
대형 언어 모델 및 전략적 ai
나는 최근에 LLM이 서로에 대해 보드 게임 위험을 플레이하게하는 실험을 진행했습니다. 실험에 대한 나의 목표는 LLM이 전략적 환경에서 얼마나 잘 수행 할 수 있는지를 측정하는 것이 었습니다. 올바른 맥락을 제공하기 위해 에이전트에게 상당히 상세한 프롬프트가 주어졌지만, 아마도 LLM 성능은 다소 평범했습니다.
.
실험에 관한 기사를 여기에서 찾을 수 있습니다
위험 게임 설정에서 LLM의 전략적 능력 탐색
실험의 주요 결과 중 일부를 요약하면, 현재 세대의 LLMS는 강화 및 승리 동작 인식과 같은 기본 전략적 개념으로 어려움을 겪고 있습니다. 그들은 또한 다른 플레이어를 제거하는 것이 전략적으로 유익했을 때 다른 플레이어를 제거하지 못합니다. .
위의 실험은 우리가 LLM의 빠른 개선을 보였지만 여전히 전략적 추론에 대한 정교함이 부족함을 나타냅니다. 그들의 일반적인 훈련 데이터와 그들이 어떻게 구성되었는지를 감안할 때 이것은 놀라운 일이 아닙니다.
.
그렇다면 전략 AI에 대한 토론에 어떻게 적합합니까? 이를 이해하려면 LLM이 실제로 무엇을 탁월한 지 이해해야합니다. 아마도 LLM의 가장 유망한 특징은 아마도 방대한 양의 텍스트를 소화하고 생성하는 능력입니다. 그리고 이제 멀티 모달 모델, 비디오 및 오디오도 있습니다. 다시 말해, LLM은 인간 및 기타 맥락에서 현실 세계와 상호 작용하는 데 적합합니다. 최근 Meta의 AI 팀은 언어 모델의 일반적인 언어 기능을 전략 엔진의 전략적 통찰력과 결합 할 수있었습니다. 사례 연구 : Cicero and Diplomacy
외교 게임은 2 ~ 7 인 전략 게임으로, 메타는 위험, 포커 및 TV 쇼 생존자의 혼합으로 묘사합니다. 플레이어는 유럽지도로 시작합니다. 1900 년, 목표는 대부분의 공급 센터를 통제하는 것입니다. 특히, 플레이어는 승리를 달성하기 위해 34 개 공급 센터 중 18 개를 제어하는 것을 목표로합니다. 그렇게함으로써, 선수는 제 1 차 세계 대전으로 이어지는 시대에 유럽에 대한 국가의 승천을 대표하는지도를 효과적으로 지배합니다.
우리가 지금까지 논의한 다른 많은 게임과 차별화되는 것은 플레이어 간의 협상에 의존하는 것입니다. 예를 들어 포커보다 훨씬 협력적인 형태의 플레이입니다. 각 플레이어는 자연 언어를 사용하여 매 턴 전에 다른 플레이어와 의사 소통하며 서로 동맹국을 계획합니다. 준비가 완료되면 모든 플레이어는 동시에 계획을 공개하고 턴이 실행됩니다. 이러한 유형의 게임은 분명히 대부분의 다른 보드 게임보다 실제 외교와 실제 협상과 비슷하지만 자연어 구성 요소로 인해 AI가 마스터하기가 매우 어려웠습니다.
.
이것은 2022 년 Meta의 AI 팀이 Cicero를 개발했을 때 변경되었습니다. Cicero는 전략 모듈과 결합 된 언어 모델링의 최신 발전을 사용하여 "인간 플레이어의 평균 점수의 두 배 이상을 달성하고 하나 이상의 게임을 한 참가자의 상위 10%에서 순위를 매길 수있는 게임 엔진이었습니다. . "⁶ Meta가 설명하는 것처럼, 그들의 모델은 전략적 대화 대화를 생성하고 대화 인식-스트레이트를 생성 할 수 있습니다. .
Cicero와 다른 전략 AI 모델의 차이
외교와 최근 전략적 AI 발전이 있었던 다른 게임들 사이에는 몇 가지 주요 차이점이 있습니다. 가장 주목할만한 것은 다른 게임의 적대적 특성과 비교할 때 게임의 협력 적 특성과 그것이 사용하는 개방형 자연 언어 형식입니다. 나는 이러한 차이로 인해 게임이 실제 인간의 상호 작용과 비슷하다고 주장하지만, 연구가 Cicero에 전원을 공급하는 알고리즘을 훈련시킬 수있는 방법에 대한 제한을 제한합니다.
Pluribus 및 Alphazero와 달리 Cicero는 주로 자체 연극 및 강화 학습을 통해 훈련되지 않습니다. 대신, 메타 팀은 125,000 개가 넘는 게임과 40,000,000 개의 메시지가있는 데이터 세트를 사용하여 알고리즘을 훈련 시켰습니다. 그들은 게임의 협상, 설득 및 신뢰 구축 측면을 감안할 때, AI가 자기 놀이를 통해 자신과 협상하게하면 인간의 상호 작용의 본질을 포착하지 못하면 이상한 행동을 볼 수 있다고 생각했다. 그들의 연구 기사 인용 : "… 우리는 2P0 버전의 게임에서 초 인간적인 성능을 달성 한 자체 플레이 알고리즘이 잠재적 인 인간 동맹국의 규범과 기대치와 일치하지 않는 정책을 배우기 때문에 여러 인간 플레이어와 게임에서 제한적으로 성능이 떨어지는 것을 발견했습니다. "
그러나 그러나 강화 학습은 전략 엔진의 일부를 훈련시키는 데 사용되었으며, 특히 Cicero의 가치 기능을 훈련시키는 데 사용되었습니다. 이는 행동의 유용성을 예측해야합니다. 연구원들은 행동으로 예상되는 유틸리티를 극대화하고 동시에 인간 행동의 발산을 최소화하기 위해 수정 된 행동 클로닝 버전의 행동 클로닝 버전을 사용했습니다. 동시에 인간의 행동에 가까워지는 동안.
외교의 위의 특징은 실제 인간 환경에서 작동 할 수있는 전략적 AI를 만드는 것과 관련된 몇 가지 중요한 문제를 강조하며, 전략적 AI가 어떻게 발전 할 것인지를 평가할 때 고려해야 할 때 고려해야합니다.
.
전략적 ai
의 미래
미래를 예측하는 것은 항상 까다 롭지 만, 한 가지 접근법은 현재 추세를 사용하고 미래 시나리오에 외삽하는 것입니다. 아래에서, 우리는 이전 토론과 밀접한 관련이있는 몇 가지 주제를 조사하고 전략 AI의 미래에 어떻게 영향을 줄 수 있는지 평가합니다.
일반 기호 전략 엔진 대 특수 모듈
우리가 지금까지 전략적 AI 엔진의 궤적을 조사한다면, 우리를 놀라게하는 한 가지는 각 게임 엔진이 얼마나 전문화되는지입니다. Alphazero가 여러 다른 게임을하는 방법을 배우는 것과 같이 아키텍처는 비슷할 수 있지만 AI는 여전히 특정 게임마다 수백만 개의 게임을합니다. 체스의 경우 Alphazero는 4,400 만 게임을했고 1 억 3 천만 게임을했습니다!
일반 전략 엔진은 다양한 상황에서 광범위한 전략적 원칙을 이해하고 적용하는 것을 목표로합니다. 아마도 인간의 전략적 상호 작용의 여러 측면을 포착하는 게임을 만들어 AI는 스스로 놀이를 통해 배우고 실제 시나리오에 적용되는 전략을 개발할 수 있습니다. 이 접근법은 AI가 학습을 일반화하여 다양한 맥락에서 유용하게하는 데 도움이 될 수 있습니다.
반면에, 특수 모듈은 특정 시나리오 또는 작업을 위해 설계된 AI 시스템입니다. 우리는 여러 전문 에이전트를 결합하여 일반적인 전략 AI를 만들 수 있다고 생각할 수 있습니다. AI 에이전트는 각 특정 영역에서 뛰어나도록 훈련 될 수 있으며, 가장 필요한 곳에 깊은 전문 지식을 제공 할 수 있습니다. 이 방법은 AI의 일반화 능력을 제한 할 수 있지만 특정 도메인에서 고성능을 보장하여 실제 응용 프로그램을보다 빠르게 이끌어 낼 수 있습니다. .
외교에서 관찰 한 바와 같이 협력 환경에서 자체 플레이에 AI를 사용하는 데 문제가 주어지고 다른 전략적 상황에 대한 전문 모듈을 선호하는 현재 추세는 가까운 시일 내에 전문화 될 것 같습니다. 다른 맥락을위한 전략적 모듈. 그러나 일반 전략 엔진을 사용하여 광범위한 주제에 대한 통찰력을 제공하는 혼합 시스템을 구상 할 수있는 반면, 특수 모듈은 복잡하고 구체적인 과제를 처리합니다. 이 균형은 AI 시스템이 특정 상황의 세부 사항에 적응하면서 일반적인 전략적 통찰력을 적용 할 수 있습니다.
llms 전략 모듈과 실제 응용 프로그램 간의 격차를 해소
큰 언어 모델은 AI가 인간 언어와 상호 작용하는 방식을 바꾸어 전략 AI 모듈을 실제 사용 사례와 연결하는 강력한 방법을 제공합니다. LLM은 인간과 같은 텍스트를 이해하고 생성하는 데 능숙하며, 실제 상황을 전략 엔진이 처리 할 수있는 구조화 된 데이터로 변환 할 수있는 중개자로 이상적입니다. Meta의 Cicero에서 볼 수 있듯이 LLM을 전략적 추론과 결합하여 AI는 협력 환경에서 인간의 의사 소통을 이해하고 협상 및 계획을 계획 할 수있었습니다.
더 많은 멀티 모달 모델에 대한 현재 추세를 감안할 때 LLM은 텍스트뿐만 아니라 실제 컨텍스트를 기계 읽기 가능한 구문으로 번역 할 수 있습니다. 이것은 모델을 중개자로 더 유용하게 만듭니다
Cicero를 위해 개발 된 아이디어를 기반으로한다면, 외교 커뮤니케이션과 같은 특정 작업에 대한 다양한 언어 모델을 미세 조정 한 다음 아마도 역사적 외교적 서신에 대한 모델을 미세 조정 한 다음 별도의 전략 엔진을 교육함으로써 등장 할 수도 있습니다. 최적의 행동으로.
인간-아이 협력 : Centaur 모델
전략 AI의 미래는 의사 결정을 인수하는 기계에 관한 것이 아닙니다. 전환 기간 동안 그것은 또한 인간과 AI가 효과적으로 함께 일하는 것에 관한 것입니다. 이 파트너십은 종종 "Centaur Model"이라고하며 인간 직관을 AI의 컴퓨팅 성능과 결합합니다. 이 모델에서 인간은 창의성, 윤리적 판단 및 유연성을 가져 오는 반면 AI 시스템은 강력한 데이터 처리와 전략적 원칙의 일관된 적용을 제공합니다.이 모델의 실제 사례에는 인간 -AI 팀이 인간이나 기계 만 능가하는 영역이 포함됩니다. 예를 들어 체스에서 Garry Kasparov는 AI와 팀을 구성한다는 아이디어를 홍보하여 Human Strategic Insight와 AI의 정확한 계산을 결합했습니다. Centaur 모델은 프로그램이 정말 좋아지기 시작할 때까지 체스에서 잘 작동하는 것처럼 보였습니다. 그 시점에서 인간의 기여는 가치가 없었으며 최악의 경우에 해를 끼쳤습니다.
그러나 그러나 체스보다 개방적이고 실제와 같은 다른 영역에서는 Centaur 모델이 앞으로 좋은 내기 일 것입니다. Modern LLMS와의 인간 협업이 생산성을 크게 향상시킬 수있는 잠재력을 갖는 방법을 고려하십시오.
이 협업 접근법은 인간의 판단을 AI 분석과 결합하여 의사 결정을 향상시켜 더 많은 정보를 얻고 균형 잡힌 결과를 초래할 수 있습니다. 인간은 AI 지원으로 실시간으로 전략을 조정할 수 있으므로 새롭고 예상치 못한 상황에 빠르게 적응할 수 있습니다.
게임 이외의 실제 응용 프로그램
게임은 전략적 AI를 개발하기위한 훌륭한 테스트 토단 이었지만 실제 영향은 이러한 발전을 실제 문제에 적용함으로써 발생합니다. 아래에서 우리는 몇 가지 예를 강조합니다.
지난 몇 년 동안 엄청난 발전을 보인 한 분야는 자율 주행 자동차이며 전략 AI를 사용하여 도로를 안전하게 탐색하는 방법입니다. 그들은 다른 운전자, 보행자 및 자전거 운전자의 행동을 예측하고 대응해야합니다. 예를 들어, 자율 주행 차는 보행자가 길을 건너려고하는지 또는 다른 운전자가 예기치 않게 차선을 변경하려고하는지 예상해야합니다.
올해 자율 주행 차량과 승차원 서비스를 개발하는 회사 인 Waymo는 피닉스, 애리조나, 캘리포니아의 로스 앤젤레스 및 샌프란시스코의 세 가지 도시에서 완전히 자율적 인 택시를 사용하기 시작했습니다. 앞으로 몇 년 동안 우리는 전략적 AI의 개선으로 인해 완전히 자율 주행 차량이 크게 증가 할 것으로 예상 할 수 있습니다.
금융 시장에서 AI 중심 거래 시스템은 막대한 양의 데이터를 분석하여 투자 결정을 내립니다. 이 시스템은 시장 운동을 예상하기 위해 트레이더 및 기관과 같은 다른 시장 참여자의 행동을 고려합니다. 그들은 전략적 추론을 사용하여 위험을 최소화하면서 종종 휘발성이 높은 환경에서 수익을 극대화하는 거래를 실행합니다.
AI 시스템은 또한 공급 업체, 경쟁 업체 및 고객의 행동을 고려하여 공급망을 최적화합니다. 예상 수요 및 경쟁 업체 행동에 따라 생산 일정, 재고 수준 및 물류를 전략적으로 조정할 수 있습니다. 예를 들어, 경쟁 업체가 신제품을 출시 할 것으로 예상되는 경우 AI는 잠재적 인 수요 증가를 충족시키기 위해 재고 수준을 높이는 권장입니다. 전략 AI는 에너지 분포를 효율적으로 관리하는 데 사용됩니다. 스마트 그리드는 AI를 사용하여 소비 패턴을 예측하고 그에 따라 공급을 조정합니다. 그들은 가격 책정 신호 또는 환경 적 요인에 따라 소비자가 사용을 변화시킬 수있는 방법을 고려합니다. AI는 전략적으로 자원을 균형을 맞추고, 정전을 예방하며, 재생 가능한 에너지 원을 통합합니다.
위의 예는 전략 AI가 다양한 산업 및 분야에 어떻게 통합되고 있는지 명확하게 보여줍니다. 이 AI 시스템은 다른 사람의 행동을 고려함으로써 결과를 최적화하고 효율성을 높이며 종종 경쟁 우위를 제공하는 정보에 근거한 결정을 내립니다. 전략적 AI가 계속 개선되면서 이러한 시스템도 계속 개선 할 것이며, 우리는 다른 많은 영역에서도 그들의 출현을 볼 것입니다. .
결론
전략 AI는 Deep Blue의 Garry Kasparov에 대한 승리 이후 먼 길을 왔습니다. 복잡한 보드 게임을 마스터하는 것에서 인간과 같은 협상에 이르기까지 AI 시스템은 점점 더 전략적 추론 능력을 보여주고 있습니다.
이 기사에서 우리는 전략 AI의 기본 개념을 조사하여 게임 이론의 중요성과 현장의 일부 개념이 전략 AI에 어떻게 적용될 수 있는지를 강조했습니다. 우리는 또한 좁은 도메인과 광범위한 셀프 플레이에 중점을 두어 특정 게임에서 전문화 된 AI 시스템이 어떻게 특정 게임에서 초 인간적인 성능을 달성했는지 살펴 보았습니다. 이것은 전략적 AI의 미래가 광범위한 응용 프로그램을 제공 할 수있는 일반적인 상징적 전략 엔진을 개발하거나 특정 작업에 맞는 특수 모듈을 계속 개발하는 데 있는지에 대한 의문을 제기합니다.
Cicero에서 보았 듯이 언어 모델은 전략 AI의 공간에서 미래를 가질 것입니다. OpenAi, Anthropic 및 Meta와 같은 제공자의 새로운 모델은 이러한 도구를 AI 시스템을 처리 할 수있는 구조화 된 데이터로 변환하는 데 사용될 수있는 자율적 인 에이전트에 이러한 도구를 더 쉽게 통합 할 수있게 해줍니다.
.
그러나 실제 세계의 복잡성을 탐색 할 수있는 범용 전략 AI를 향한 여정은 막 시작되었습니다. 도전 과제는 도메인간에 일반화하고 예기치 않은 상황에 적응하며 윤리적 고려 사항을 의사 결정 과정에 통합 할 수있는 시스템 개발에 남아 있습니다.
읽어 주셔서 감사합니다!
새 기사를 게시 할 때마다 알림을 받고 싶습니까? ➡️ 내 뉴스 레터를 여기에서 구독하십시오. 무료이며 언제든지 구독을 취소 할 수 있습니다!
이 기사를 읽는 것을 좋아하고 더 많은 콘텐츠에 액세스하고 싶다면 https://www.linkedin.com/in/hans-christian-ekne-1760a259의 LinkedIn에서 저와 연결해 주시기 바랍니다. / 또는 https://www.ekneconsulting.com/에서 내 웹 페이지를 방문하여 내가 제공하는 서비스 중 일부를 탐색하십시오. 주저하지 말고 [이메일 보호]
에서 이메일을 통해 연락하십시오 참조
렉스 프리드먼. (2019 년 10 월 27 일). Garry Kasparov : Chess, Deep Blue, AI 및 Putin | Lex Fridman Podcast #46 [비디오 파일]. YouTube. https://youtu.be/8rva0thwuww?si=1ercnwlan4myok9w
Vinyals, O., Babuschkin, I., Czarnecki, W.M. Multi-Agent 강화 학습을 사용하는 Starcraft II의 Grandmaster 수준. - 자연 575, 350–354 (2019). https://doi.org/10.1038/s41586-019-1724-z
https://deepmind.google/discover/blog/alphastar-mastering-real-strategy-game-starcraft-ii/
<.> Brown et al. (2019 년 8 월 30 일). 멀티 플레이어 포커를위한 초인간 AI. Science 365, 885–890, (2019).
- https://www.science.org/doi/epdf/10.1126/science.aay2400
렉스 프리드먼. (2022 년 12 월 6 일). Noam Brown : AI 대 전략 협상의 포커 및 게임에서 인간 | Lex Fridman Podcast #344 [비디오 파일]. YouTube. https://youtu.be/2ohh4acljqs?si=ave_esb42gngiprg
메타 기본 AI 연구 외교 팀 (FAIR) † et al., 외교 의 인간 수준의 플레이. 378 , 1067 1074 (2022) .doi : 10.1126/science.ade9097, https://noambrown.github.io/papers/22-science-diplomacy-tr.pdf
- David Silver 체스, 쇼기를 마스터하고 자체 놀이를 마치는 일반적인 강화 학습 알고리즘. Science
- 362 , 1140–1144 (2018) .doi : 10.1126/Science. AAR6404 https://storage.googleapis.com/deepmind-media/deepmind.com/blog/alphazero-shedding-new-light-onchess-shogi-and-go/alphazero_preprint.pdf