World 모델은 안전하고 샘플 효율적인 방식으로 강화 학습 에이전트를 훈련하는 방법을 제공합니다. 최근 세계 모델은 환경 역학을 시뮬레이션하기 위해 주로 이산 잠재 변수 시퀀스에서 작동했습니다.
그러나 컴팩트한 이산 표현으로 압축하는 이 방법은 강화 학습에 중요한 시각적 세부 사항을 무시할 수 있습니다. 반면, 확산 모델은 이미지 생성을 위한 지배적인 방법이 되었으며, 이산형 잠재 모델에 대한 과제를 제기했습니다.
이러한 패러다임 전환에 힘입어 제네바 대학, 에딘버러 대학, Microsoft Research의 연구원들은 확산 세계 모델에서 훈련된 강화 학습 에이전트인 DIAMOND(DIffusion As a Model Of eNvironment Dreams)를 공동으로 제안했습니다.
Atari 100k 벤치마크에서 DIAMOND+는 평균 HNS(Human Normalized Score) 1.46을 달성했습니다. 이는 월드 모델에서 훈련된 에이전트가 월드 모델에서 훈련된 에이전트의 SOTA 수준에서 완전히 훈련될 수 있음을 의미합니다. 본 연구는 확산 세계 모델의 장기적으로 효율적인 안정성을 보장하기 위해 DIAMOND 설계 선택이 필요함을 설명하기 위한 안정성 분석을 제공합니다.
이미지 공간에서 작동한다는 이점 외에도 확산 세계 모델이 환경을 직접적으로 표현할 수 있게 하여 세계 모델과 에이전트 동작에 대한 더 깊은 이해를 제공합니다. 특히, 이 연구에서는 특정 게임의 성능 향상이 주요 시각적 세부 사항의 모델링 향상으로 인해 발생한다는 사실을 발견했습니다.
다음으로 이 글에서는 확산 세계 모델에서 훈련된 강화 학습 에이전트인 DIAMOND를 소개합니다. 특히, 우리는 확산 패러다임의 특정 선택에 해당하는 섹션 2.2에 소개된 드리프트 및 확산 계수 f 및 g를 기반으로 합니다. 또한 이 연구에서는 Karras et al.을 기반으로 EDM 공식을 선택했습니다.
먼저 섭동 커널 을 정의합니다. 여기서 는 노이즈 일정이라고 하는 확산 시간과 관련된 실제 값 함수입니다. 이는 드리프트 및 확산 계수를 및 로 설정하는 것과 같습니다.
그런 다음 Karras et al.(2022)이 도입한 네트워크 전처리를 사용하고 방정식 (5)의 를 시끄러운 관찰과 신경망 예측 값의 가중 합으로 매개변수화합니다.
공식을 얻습니다. (6)
여기서 간결한 정의를 위해 에는 모든 조건 변수가 포함됩니다.
전처리기 선택. 전처리기 및 는 모든 소음 수준에서 네트워크 입력 및 출력의 단위 변화를 유지하기 위해 선택됩니다. 는 소음 수준의 경험적 변환이고, 는 과 데이터 분포의 표준편차 로 주어지며 공식은
공식 5와 6을 결합하여 훈련 목표를 얻습니다:
이 연구는 표준 U-Net 2D를 사용하여 벡터 필드를 구축하고 과거 L개의 관찰 및 동작을 포함하는 버퍼를 유지하여 모델을 조건화합니다. 다음으로 그들은 이러한 과거 관측치를 다음 잡음 관측치와 채널 단위로 연결하고 적응형 그룹 정규화 계층을 통해 U-Net의 잔여 블록에 작업을 제공했습니다. 섹션 2.3과 부록 A에서 설명한 것처럼 훈련된 확산 모델에서 다음 관측값을 생성하는 데 사용할 수 있는 샘플링 방법이 많이 있습니다. 연구에서 공개된 코드 베이스는 여러 샘플링 방식을 지원하지만, 오일러 방법은 추가 NFE(함수 평가 횟수)를 요구하지 않고 고차 샘플러 또는 무작위 샘플링의 불필요한 복잡성을 피하는 데 효과적이라는 사실이 밝혀졌습니다.
DIAMOND를 완전히 평가하기 위해 이 연구에서는 에이전트의 광범위한 기능을 테스트하기 위해 26개 게임이 포함된 잘 확립된 Atari 100k 벤치마크를 사용했습니다. 각 게임에 대해 에이전트는 평가되기 전에 게임 플레이 방법을 배우기 위해 환경에서 대략 2시간의 인간 게임 시간에 해당하는 100,000개의 작업만 허용되었습니다. 참고로 제약이 없는 Atari 에이전트는 일반적으로 5천만 단계 동안 훈련되며 이는 경험이 500배 증가한 것에 해당합니다. 연구원들은 5개의 무작위 시드를 사용하여 각 게임에서 처음부터 DIAMOND를 훈련했습니다. 각 실행은 약 12GB의 VRAM을 사용했으며 단일 Nvidia RTX 4090에서 약 2.9일이 걸렸습니다(총 1.03 GPU 연).
표 1은 세계 모델에서 에이전트 교육에 대한 다양한 점수를 비교합니다.
평균 및 IQM(사분위 평균) 신뢰 구간은 그림 2에 제공됩니다.
결과에 따르면 DIAMOND는 벤치마크에서 강력한 성능을 발휘하여 11개 게임에서 인간 플레이어를 능가하고 HNS 점수 1.46을 달성했습니다. 이는 전적으로 세계 모델에 대해 교육받은 에이전트의 새로운 기록입니다. 또한 연구에 따르면 DIAMOND는 Asterix, Breakout 및 Road Runner와 같이 디테일 캡처가 중요한 환경에서 특히 뛰어난 성능을 발휘하는 것으로 나타났습니다.
확산변수의 안정성을 연구하기 위해 본 연구에서는 아래 그림 3과 같이 자기회귀에 의해 생성된 상상의 궤적을 분석했습니다.
연구에서는 그림 4에 표시된 복싱 게임과 같이 샘플링 프로세스를 특정 모드로 구동하기 위해 반복 솔버가 필요한 상황이 있음을 발견했습니다.
그림 5에 표시된 궤적과 비교 IRIS가 상상한 궤적은 일반적으로 DIAMOND가 상상한 궤적의 시각적 품질이 더 높고 실제 환경과 더 일치합니다.
관심 있는 독자는 논문 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.
위 내용은 월드 모델도 퍼졌습니다! 훈련받은 에이전트는 꽤 괜찮은 것으로 나타났습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!