DeepMind hat neue Erfolge im Bereich der Spiel-KI erzielt, dieses Mal im westlichen Schach.
Im Bereich der KI-Spiele wird der Fortschritt der künstlichen Intelligenz häufig anhand von Brettspielen demonstriert. Brettspiele können messen und bewerten, wie Menschen und Maschinen in kontrollierten Umgebungen Strategien entwickeln und ausführen. Seit Jahrzehnten ist die Fähigkeit zur Vorausplanung der Schlüssel zum Erfolg der KI bei Spielen mit perfekten Informationen wie Schach, Dame, Shogi und Go sowie bei Spielen mit unvollständigen Informationen wie Poker und Scotland Yard.
Stratego ist zu einer der nächsten Grenzen der KI-Forschung geworden. Eine Visualisierung der Phasen und Mechanismen des Spiels ist unten in 1a dargestellt. Das Spiel steht vor zwei Herausforderungen.
Erstens hat der Spielbaum von Stratego 10.535 mögliche Zustände, was mehr ist als die gut untersuchten unvollständigen Informationsspiele Unrestricted Texas Hold’em (10.164 mögliche Zustände) und Go (10.360 mögliche Zustände).
Zweitens erfordert das Agieren in einer bestimmten Umgebung in Stratego, dass zu Beginn des Spiels 1066 mögliche Einsatzmöglichkeiten für jeden Spieler berücksichtigt werden müssen, während es beim Poker nur 103 mögliche Handpaare gibt. Perfekte Informationsspiele wie Go und Schach haben keine private Bereitstellungsphase, wodurch die Komplexität dieser Herausforderung in Stratego umgangen wird.
Derzeit ist es weder möglich, modellbasierte SOTA-Techniken zur perfekten Informationsplanung zu verwenden, noch unvollständige Informationssuchtechniken zu verwenden, die das Spiel in unabhängige Situationen zerlegen.
Aus diesen Gründen bietet Stratego einen herausfordernden Maßstab für die Untersuchung groß angelegter politischer Wechselwirkungen. Wie die meisten Brettspiele testet Stratego unsere Fähigkeit, relativ langsame, durchdachte und logische Entscheidungen nacheinander zu treffen. Und weil die Struktur des Spiels sehr komplex ist, hat die KI-Forschungsgemeinschaft kaum Fortschritte gemacht und die künstliche Intelligenz kann nur das Niveau menschlicher Amateurspieler erreichen. Daher bleibt die Entwicklung eines Agenten zum Erlernen von End-to-End-Strategien, um optimale Entscheidungen auf der Grundlage der unvollständigen Informationen von Stratego zu treffen, von Grund auf und ohne menschliche Demonstrationsdaten, eine der größten Herausforderungen in der KI-Forschung.
Kürzlich haben Forscher in einem aktuellen Artikel von DeepMind DeepNash vorgeschlagen, einen Agenten, der das Stratego-Selbstspiel modellfrei und ohne menschliche Demonstration lernt. DeepNask besiegte frühere SOTA-KI-Agenten und erreichte in der komplexesten Variante des Spiels, Stratego Classic, das Niveau eines erfahrenen menschlichen Spielers.
Papieradresse: https://arxiv.org/pdf/2206.15378.pdf.
Der Kern von DeepNash ist ein strukturierter, modellfreier Reinforcement-Learning-Algorithmus, den Forscher Regularized Nash Dynamics (R-NaD) nennen. DeepNash kombiniert R-NaD mit einer tiefen neuronalen Netzwerkarchitektur und konvergiert zu einem Nash-Gleichgewicht, was bedeutet, dass es lernt, im Anreizwettbewerb zu spielen und robust gegenüber Konkurrenten ist, die versuchen, es auszunutzen.
Abbildung 1 b unten ist eine allgemeine Übersicht über die DeepNash-Methode. Die Forscher verglichen seine Leistung systematisch mit verschiedenen SOTA Stratego-Robotern und menschlichen Spielern auf der Gravon-Gaming-Plattform. Die Ergebnisse zeigen, dass DeepNash alle aktuellen SOTA-Roboter mit einer Gewinnquote von mehr als 97 % besiegte und mit menschlichen Spielern hart konkurrierte. Es rangierte im Jahr 2022 und in jedem Zeitraum mit einer Gewinnquote von 84 % unter den Top 3.
Forscher sagen, dass es das erste Mal ist, dass ein KI-Algorithmus das Niveau menschlicher Experten in einem komplexen Brettspiel erreichen kann, ohne Suchmethoden im Lernalgorithmus einzusetzen erreichte das Niveau menschlicher Experten im Stratego-Spiel.
DeepNash verwendet eine End-to-End-Lernstrategie, um Stratego zu betreiben und die Spielsteine zu Beginn des Spiels strategisch auf dem Spielbrett zu platzieren (siehe Abbildung 1a). Deep RL und Game On-Methode. Ziel des Agenten ist es, durch Selbstspiel ein ungefähres Nash-Gleichgewicht zu erlernen.
Diese Forschung verwendet orthogonale Pfade ohne Suche und schlägt eine neue Methode vor, die modellfreies Verstärkungslernen im Selbstspiel mit der Idee des spieltheoretischen Algorithmus-Regularized Nash Dynamics (RNaD) kombiniert.
Der modellfreie Teil bedeutet, dass die Forschung kein explizites Gegnermodell erstellt, um die möglichen Zustände des Gegners zu verfolgen. Der spieltheoretische Teil basiert auf der Idee, dass sie auf der Grundlage der Reinforcement-Learning-Methode das Lernverhalten des Agenten steuern hin zu einer ausgewogenen Nash-Entwicklung. Der Hauptvorteil dieses kompositorischen Ansatzes besteht darin, dass es nicht notwendig ist, den privaten Staat explizit vom öffentlichen Staat zu verspotten. Eine weitere komplexe Herausforderung besteht darin, diesen modellfreien Reinforcement-Learning-Ansatz mit R-NaD zu kombinieren, um das Selbstspiel im westlichen Schach zu ermöglichen, mit menschlichen Expertenspielern zu konkurrieren, was bisher nicht erreicht wurde. Diese kombinierte DeepNash-Methode ist in Abbildung 1b oben dargestellt.
Der in DeepNash verwendete R-NaD-Lernalgorithmus basiert auf der Idee der Regularisierung, um Konvergenz zu erreichen, wie in Abbildung 2b unten dargestellt:
DeepNash besteht aus drei Komponenten: (1) der Kerntrainingskomponente R-NaD; (2) der Feinabstimmung der Lernstrategie, um die Restwahrscheinlichkeit zu verringern, dass das Modell äußerst unwahrscheinliche Maßnahmen ergreift, und (3) Post- Testverarbeitung, um Aktionen mit geringer Wahrscheinlichkeit herauszufiltern und Fehler zu korrigieren.
Das Netzwerk von DeepNash besteht aus den folgenden Komponenten: einem U-Net-Backbone mit Restblöcken und Skip-Verbindungen sowie vier Köpfen. Der erste DeepNash-Kopf gibt die Wertfunktion als Skalar aus, während die verbleibenden drei Köpfe die Agentenrichtlinie kodieren, indem sie eine Wahrscheinlichkeitsverteilung seiner Aktionen während der Bereitstellung und des Spiels ausgeben. Die Struktur dieses Beobachtungstensors ist in Abbildung 3 dargestellt:
DeepNash wurde auch anhand mehrerer vorhandener Stratego-Computerprogramme bewertet: Probe bei der Computer Stratego-Weltmeisterschaft, drei Jahre davon Gewinner (2007 , 2008, 2010); Master of the Flag gewann die Meisterschaft im Jahr 2009; Demon of Ignorance ist eine Open-Source-Implementierung von Stratego, Celsius, Celsius1.1, PeternLewis und Vixen. Ein Programm wurde 2012 an australischen Universitäten eingereicht Wettbewerb, den Petern Lewis gewann.
Wie in Tabelle 1 gezeigt, gewann DeepNash die überwiegende Mehrheit der Spiele gegen all diese Agenten, obwohl DeepNash nicht dagegen trainiert wurde und nur Selbstspiel nutzte.
Abbildung 4a unten zeigt einige der oft wiederholten Einsatzmethoden in DeepNash; Abbildung 4b zeigt, wie DeepNash (blaue Seite) in Teilen zurückfällt (7 und 8 verliert), aber in der Informationssituation führt, weil der Gegner weiter ist Die rote Seite hat 10, 9, 8 und zwei 7er. Das zweite Beispiel in Abbildung 4c zeigt, dass DeepNash die Möglichkeit hatte, die 6 des Gegners mit seiner 9 zu erobern, aber dieser Zug wurde nicht in Betracht gezogen, möglicherweise weil DeepNash glaubte, dass der Schutz der Identität der 9 wichtiger war als der materielle Gewinn.
In Abbildung 5a unten demonstrieren die Forscher positives Bluffen, bei dem der Spieler vorgibt, dass der Wert der Figur höher ist als der tatsächliche Wert. DeepNash jagt die 8 des Gegners mit der unbekannten Figur Scout (2) und gibt vor, es sei eine 10. Der Gegner denkt, dass es sich bei der Figur um eine 10 handeln könnte und führt sie neben den Spy (wo die 10 geschlagen werden kann). Um diese Figur zu erobern, verlor der Spion des Gegners jedoch gegen DeepNashs Späher.
Die zweite Art des Bluffens ist das negative Bluffen, wie in Abbildung 5b unten dargestellt. Es ist das Gegenteil des aktiven Bluffens, bei dem der Spieler vorgibt, dass die Figur weniger wert ist, als sie tatsächlich ist.
Abbildung 5c unten zeigt einen komplexeren Bluff, bei dem DeepNash seinen unbekannten Scout (2) nahe an der 10 des Gegners platziert, was als Spy interpretiert werden könnte. Diese Strategie ermöglicht es Blau tatsächlich, die 5 von Rot ein paar Züge später mit 7 zu erobern, wodurch Material gewonnen wird, 5 daran gehindert wird, Scout (2) zu erobern, und enthüllt, dass es sich eigentlich nicht um einen Spion handelt.
Das obige ist der detaillierte Inhalt vonDie Gewinnquote gegen Menschen liegt bei 84 %. DeepMind AI erreicht erstmals das Niveau menschlicher Experten im westlichen Schach. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!