깊은 강화 학습을 위해 Torchrl을 시작합니다-일체 포함-php.cn

깊은 강화 학습을 위해 Torchrl을 시작합니다

Joseph Gordon-Levitt

풀어 주다： 2025-03-01 09:43:09

원래의

424명이 탐색했습니다.

Getting Started with TorchRL for Deep Reinforcement Learning 강화 학습 (RL)은 자율 주행 차에서 정교한 언어 모델에 이르기까지 복잡한 문제를 해결합니다. RL 요원은 인간 피드백 (RLHF)의 강화 학습을 통해 학습하여 인간의 입력에 기초하여 반응을 조정합니다. Keras 및 Tensorflow와 같은 Python 프레임 워크가 설정되어 있지만 Pytorch와 Pytorch Lightning은 새로운 프로젝트를 지배합니다.

오픈 소스 라이브러리 인 Torchrl은 Pytorch와의 RL 개발을 단순화합니다. 이 튜토리얼은 Torchrl 설정, 핵심 구성 요소 및 기본 RL 에이전트 구축을 보여줍니다. 근위 정책 최적화 (PPO) 및 필수 로깅 및 모니터링 기술과 같은 사전 구축 된 알고리즘을 탐색합니다. torchrl 설정 이 섹션은 Torchrl을 설치하고 사용하여 안내합니다 전제 조건 Torchrl을 설치하기 전에 다음을 확인하십시오

Pytorch : Torchrl 's Foundation 체육관 : RL 환경을 수입하기위한. 버전 0.29.1 사용 (2025 년 1 월 현재, 이후 버전에는 Torchrl과 관련된 호환성 문제가 있습니다 - 관련 GIT 토론 페이지 참조). <:> 피그 게임 : 게임과 같은 RL 환경을 시뮬레이션하기 위해 (예 : 카트 폴) Tensordict : 효율적인 텐서 조작을위한 텐서 컨테이너를 제공합니다

전제 조건을 설치하십시오 :

torchrl 설치 PIP를 사용하여 Torchrl을 설치하십시오. 개인용 컴퓨터 또는 서버에는 콘다 환경이 권장됩니다.

검증 파이썬 쉘이나 노트북에서

를 가져와 설치를 테스트하십시오. 환경 호환성 (예 : 카트 폴)을 확인하려면 를 사용하십시오

성공적인 설치가 표시됩니다

키 TORCHRL 구성 요소

에이전트 생성 전에 Torchrl의 핵심 요소를 조사해 봅시다

환경 torchrl은 다양한 환경에 일관된 API를 제공하며 환경 별 기능을 표준 포장지로 래핑합니다. 이것은 상호 작용을 단순화합니다 :

Torchrl은 상태, 행동 및 보상을 Pytorch 텐서로 변환합니다 전처리/후 처리 (정규화, 스케일링, 서식)가 쉽게 적용됩니다

: 를 사용하여 체육관 환경을 만듭니다

변환 는 : 를 사용하여 애드온 (예 : 스텝 카운터)으로 환경을 향상시킵니다

정규화는 : 로 달성됩니다

다중 변환은

에이전트 및 정책 에이전트는 정책을 사용하여 누적 보상을 극대화하기 위해 환경의 상태를 기반으로 조치를 선택합니다. 간단한 무작위 정책은

: 를 사용하여 생성됩니다

!pip install torch tensordict gymnasium==0.29.1 pygame

로그인 후 복사

첫 번째 rl 에이전트 구축 이 섹션에서는 간단한 RL 에이전트를 구축하는 것을 보여줍니다 필요한 패키지 가져 오기 : 1 단계 : 환경을 정의하십시오 우리는 카트 폴 환경을 사용할 것입니다 :

하이퍼 파라미터 정의 :

2 단계 : 정책을 만듭니다 간단한 신경 네트워크 정책 정의 :

3 단계 : 에이전트를 훈련시킵니다 데이터 수집기를 생성하고 버퍼를 재생합니다 :

훈련 모듈 정의 :

!pip install torchrl

로그인 후 복사

훈련 루프 구현 (간단한 경우 단순화) :

4 단계 : 에이전트 평가를 평가하십시오 훈련 루프에 평가 및 로깅을 추가합니다 (단순화) :

훈련 시간 및 음모 결과 :

(전체 DQN 구현은 참조 된 Datalab 통합 문서에서 사용할 수 있습니다.)

사전 제작 된 알고리즘 탐색 import torchrl from torchrl.envs import GymEnv from torchrl.envs.utils import check_env_specs check_env_specs(GymEnv("CartPole-v1")) Torchrl은 사전 구축 된 알고리즘 (DQN, DDPG, SAC, PPO 등)을 제공합니다. 이 섹션에서는 PPO를 사용합니다

하이퍼 파라미터 정의 :

(네트워크 정의, 데이터 수집, 손실 함수, 최적화 및 교육 루프를 포함한 나머지 PPO 구현은 원래 응답과 유사한 구조를 따르지만 간결하게 설명합니다. 전체 코드의 원래 응답을 참조하십시오.)

<code>[torchrl][INFO] check_env_specs succeeded!</code>

로그인 후 복사

. 시각화 및 디버깅 Tensorboard를 사용한 교육 진행 상황을 모니터링합니다

<:> 시각화 :

디버깅에는 환경 사양을 확인해야합니다

샘플 관찰 및 행동 :

비디오를 렌더링하여 에이전트 성능을 시각화합니다 (필요) :

env = GymEnv("CartPole-v1")

로그인 후 복사

모범 사례

간단한 환경 (카트 폴과 같은)으로 시작하십시오 하이퍼 파라미터 실험 (그리드 검색, 임의 검색, 자동 도구)

 가능할 때마다 사전 구축 된 알고리즘을 활용하십시오

로그인 후 복사

결론 이 튜토리얼은 DQN 및 PPO 예제를 통해 기능을 보여주는 Torchrl에 대한 포괄적 인 소개를 제공했습니다. RL 기술을 더욱 향상시키기 위해 다양한 환경 및 알고리즘을 실험하십시오. 참조 자원은 추가 학습 기회를 제공합니다.

위 내용은 깊은 강화 학습을 위해 Torchrl을 시작합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!