DQN을 사용하여 체스 에이전트 구축
저는 최근 DQN 기반 Chess Agent를 구현하려고 했습니다.
이제 DQN과 체스의 작동 방식을 아는 사람이라면 누구나 그것이 어리석은 생각이라고 말할 것입니다.
그리고… 그랬지만, 초보자로서 나는 그럼에도 불구하고 그것을 즐겼습니다. 이번 글에서는 제가 이 작업을 하면서 배운 통찰력을 공유하겠습니다.
환경을 이해합니다.
에이전트 자체 구현을 시작하기 전에 사용할 환경을 숙지하고 그 위에 사용자 지정 래퍼를 만들어 훈련 중에 에이전트와 상호 작용할 수 있도록 해야 했습니다.
-
kaggle_environments 라이브러리의 체스 환경을 사용했습니다.
from kaggle_environments import make env = make("chess", debug=True)
로그인 후 복사로그인 후 복사
-
또한 체스 게임을 구문 분석하고 검증하는 데 도움이 되는 경량 Python 라이브러리인 Chessnut을 사용했습니다.
from Chessnut import Game initial_fen = env.state[0]['observation']['board'] game=Game(env.state[0]['observation']['board'])
로그인 후 복사로그인 후 복사
이 환경에서는 보드의 상태가 FEN 형식으로 저장됩니다.
보드의 모든 말과 현재 활동 중인 플레이어를 간결하게 표현하는 방법을 제공합니다. 하지만 입력을 신경망에 공급할 계획이었기 때문에 상태 표현을 수정해야 했습니다.
FEN을 매트릭스 형식으로 변환
보드에는 12가지 유형의 조각이 있으므로 각 유형의 상태를 보드에 표현하기 위해 8x8 그리드의 12채널을 만들었습니다.
환경을 위한 래퍼 만들기
class EnvCust: def __init__(self): self.env = make("chess", debug=True) self.game=Game(env.state[0]['observation']['board']) print(self.env.state[0]['observation']['board']) self.action_space=game.get_moves(); self.obs_space=(self.env.state[0]['observation']['board']) def get_action(self): return Game(self.env.state[0]['observation']['board']).get_moves(); def get_obs_space(self): return fen_to_board(self.env.state[0]['observation']['board']) def step(self,action): reward=0 g=Game(self.env.state[0]['observation']['board']); if(g.board.get_piece(Game.xy2i(action[2:4]))=='q'): reward=7 elif g.board.get_piece(Game.xy2i(action[2:4]))=='n' or g.board.get_piece(Game.xy2i(action[2:4]))=='b' or g.board.get_piece(Game.xy2i(action[2:4]))=='r': reward=4 elif g.board.get_piece(Game.xy2i(action[2:4]))=='P': reward=2 g=Game(self.env.state[0]['observation']['board']); g.apply_move(action) done=False if(g.status==2): done=True reward=10 elif g.status == 1: done = True reward = -5 self.env.step([action,'None']) self.action_space=list(self.get_action()) if(self.action_space==[]): done=True else: self.env.step(['None',random.choice(self.action_space)]) g=Game(self.env.state[0]['observation']['board']); if g.status==2: reward=-10 done=True self.action_space=list(self.get_action()) return self.env.state[0]['observation']['board'],reward,done
이 래퍼의 요점은 에이전트에 대한 보상 정책과 훈련 중 환경과 상호 작용하는 데 사용되는 단계 함수를 제공하는 것이었습니다.
체스넛은 현재 보드 상태에서 가능한 합법적인 수와 같은 정보를 얻는 데 유용하고 게임 중에 체크메이트를 인식하는 데도 유용했습니다.
장군과 적의 말을 빼앗는 데에는 긍정적인 점수를 주고, 게임에서 지면 부정적인 점수를 주는 보상 정책을 만들려고 노력했습니다.
재생 버퍼 생성
Replay Buffer는 훈련 기간 동안 Q-Network의 출력(state,action,reward,next state)을 저장하기 위해 사용되며 나중에 Target Network의 역전파를 위해 무작위로 사용됩니다
보조 기능
Chessnut은 'a2a3'과 같은 UCI 형식으로 법적 조치를 반환하지만 신경망과 상호작용하기 위해 기본 패턴을 사용하여 각 조치를 고유한 인덱스로 변환했습니다. 총 64개의 사각형이 있으므로 각 동작마다 고유 인덱스를 64*64개로 두기로 했습니다.
64*64 동작이 모두 합법적인 것은 아니지만 체스넛을 사용하면 합법성을 처리할 수 있었고 패턴도 충분히 간단했습니다.
신경망 구조
from kaggle_environments import make env = make("chess", debug=True)
이 신경망은 컨볼루션 레이어를 사용하여 12개 채널 입력을 받아들이고 유효한 작업 인덱스를 사용하여 보상 출력 예측을 필터링합니다.
에이전트 구현
from Chessnut import Game initial_fen = env.state[0]['observation']['board'] game=Game(env.state[0]['observation']['board'])
이것은 분명히 실제로 잘 수행될 가능성이 전혀 없는 매우 기본적인 모델이었지만(그리고 그렇지 않았습니다) DQN이 어떻게 더 잘 작동하는지 이해하는 데 도움이 되었습니다.
위 내용은 DQN을 사용하여 체스 에이전트 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

Python은 게임 및 GUI 개발에서 탁월합니다. 1) 게임 개발은 Pygame을 사용하여 드로잉, 오디오 및 기타 기능을 제공하며 2D 게임을 만드는 데 적합합니다. 2) GUI 개발은 Tkinter 또는 PYQT를 선택할 수 있습니다. Tkinter는 간단하고 사용하기 쉽고 PYQT는 풍부한 기능을 가지고 있으며 전문 개발에 적합합니다.

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.
