AI가 '마인크래프트' 플레이 방법을 처음부터 배웠고, DeepMind AI가 일반화에 획기적인 발전을 이루었습니다
일반지능은 여러 분야의 과제를 해결해야 합니다. 강화 학습 알고리즘은 이러한 잠재력을 갖고 있다고 생각되지만 이를 새로운 작업에 적용하는 데 필요한 리소스와 지식으로 인해 방해를 받았습니다. DeepMind의 새로운 연구에서 연구원들은 고정된 하이퍼파라미터를 사용하여 광범위한 도메인에서 이전 방법보다 뛰어난 성능을 발휘하는 일반적이고 확장 가능한 세계 모델 기반 알고리즘인 DreamerV3를 시연합니다.
DreamerV3는 연속 및 이산 동작, 시각적 및 저차원 입력, 2D 및 3D 세계, 다양한 데이터 볼륨, 보상 빈도 및 보상 수준을 포함한 영역을 준수합니다. DreamerV3는 인간 데이터나 적극적인 교육 없이 Minecraft에서 다이아몬드를 처음부터 수집하는 최초의 알고리즘 이라는 점을 언급할 가치가 있습니다. 연구원들은 이러한 일반적인 알고리즘이 강화 학습의 광범위한 적용을 가능하게 하고 잠재적으로 어려운 의사 결정 문제로 확장될 수 있다고 말합니다.
다이아몬드는 "Minecraft" 게임에서 가장 인기 있는 아이템 중 하나입니다. 다이아몬드는 게임에서 가장 희귀한 아이템 중 하나이며 게임에서 가장 강력한 도구, 무기 및 갑옷을 제작하는 데 사용할 수 있습니다. 다이아몬드는 암석의 가장 깊은 층에서만 발견되기 때문에 생산량이 적습니다.
DreamerV3는 인간의 데모나 코스의 수동 제작 없이도 Minecraft에서 다이아몬드를 수집하는 최초의 알고리즘입니다. 이 영상은 30M 환경 단계/게임 시간 17일 이내에 발생한 첫 번째 다이아몬드 수집을 보여줍니다.
AI가 Minecraft를 플레이하는 것에 대해 전혀 모른다면 NVIDIA AI 과학자 Jim Fan은 Go를 플레이하는 AlphaGo에 비해 Minecraft 작업 수는 무제한이고 환경 변경도 무제한이며 지식에도 숨겨진 정보가 있다고 말했습니다.
마인크래프트에서 탐험하고 건설하는 것은 인간에게 재미있는 반면, AI의 경우 상황은 정반대입니다. 알파고는 6년 전 인간 챔피언을 이겼지만, 이제 마인크래프트의 인간 마스터와 경쟁할 수 있는 알고리즘은 없다.
이르면 2019년 여름, 마인크래프트 개발사는 NeurIPS 2019까지 제출된 660개 이상의 출품작 중 게임에서 다이아몬드를 찾을 수 있는 AI 알고리즘에 대한 보상을 제공하는 "다이아몬드 챌린지"를 제안했습니다. , AI가 작업을 수행할 수 없습니다.
하지만 DreamerV3의 등장으로 이러한 상황이 바뀌었습니다. 다이아몬드는 복잡한 탐색과 계획이 필요한 고도로 결합된 장기적인 작업이므로 인공적인 데이터 지원 없이 다이아몬드를 수집할 수 있습니다. 효율성 측면에서 아직 개선의 여지가 많이 있을 수 있지만, 이제 AI 에이전트가 다이아몬드 수집 방법을 처음부터 배울 수 있다는 사실은 중요한 이정표 입니다.
DreamerV3 방법 개요
논문 "세계 모델을 통한 다양한 도메인 마스터하기":
논문 링크: https://arxiv.org/abs/2301.04104v1
DreamerV3 알고리즘은 powered by 세계 모델, 평론가, 배우라는 세 가지 신경망으로 구성됩니다. 세 가지 신경망은 그라디언트를 공유하지 않고 재생 경험을 기반으로 동시에 훈련됩니다. 아래 그림 3(a)는 세계 모델 학습을 보여주고 그림(b)는 Actor Critic 학습을 보여줍니다.
교차 도메인 성공을 달성하려면 이러한 구성 요소가 다양한 신호 진폭에 적응하고 대상 전체에서 조건의 균형을 견고하게 유지해야 합니다. 동일한 도메인 내의 유사한 작업뿐만 아니라 고정된 하이퍼파라미터를 사용하는 다양한 도메인에 걸쳐 학습이 필요하기 때문에 이는 어려운 일입니다.
DeepMind는 먼저 알 수 없는 규모를 예측하기 위한 간단한 변환을 설명한 다음 세계 모델, 비평가, 배우 및 이들의 강력한 학습 목표를 소개합니다. KL 균형과 자유 비트를 결합하면 조정 없이 월드 모델을 학습할 수 있으며 작은 수익을 과장하지 않고 큰 수익을 축소하여 고정 정책 엔트로피 정규화를 달성하는 것으로 나타났습니다.
Symlog 예측
입력을 재구성하고 보상과 가치를 예측하는 것은 규모가 도메인마다 다를 수 있기 때문에 어렵습니다. 큰 목표를 예측하기 위해 제곱 손실을 사용하면 발산이 발생하는 반면, 절대 손실과 Huber 손실은 학습을 지연시킵니다. 반면, 운영 통계를 기반으로 하는 정규화 목표는 최적화에 비정상성을 도입합니다. 따라서 DeepMind는 이 문제에 대한 간단한 해결책으로 심볼로그 예측을 제안합니다.
이를 위해 입력 x와 매개변수 θ가 있는 신경망 f(x, θ)는 목표 y의 변환된 버전을 예측하는 방법을 학습합니다. 네트워크의 예측 y^를 읽기 위해 DeepMind는 아래 방정식 (1)과 같이 역변환을 사용합니다.
아래 그림 4에서 볼 수 있듯이 음수 값을 갖는 대상은 로그 변환을 사용하여 예측할 수 없습니다.
따라서 DeepMind는 대칭 로그 계열에서 Symlog라는 함수를 변환으로 선택하고 Symexp 함수를 역함수로 사용합니다.
symlog 함수는 큰 양수 값과 음수 값의 크기를 압축합니다. DreamerV3는 디코더, 보상 예측기 및 비평가에서 심볼로그 예측을 사용하고 또한 심볼로그 기능을 사용하여 인코더의 입력을 압축합니다.
세계 모델 학습
세계 모델은 자동 인코딩을 통해 감각 입력의 간결한 표현을 학습하고 미래의 표현과 잠재적인 행동에 대한 보상을 예측하여 계획을 가능하게 합니다.
위의 그림 3과 같이 DeepMind는 월드 모델을 RSSM(Recurrent State Space Model)으로 구현합니다. 먼저, 인코더는 감각 입력 x_t를 무작위 표현 z_t에 매핑한 다음 반복 상태 h_t를 갖는 시퀀스 모델이 과거 동작 a_t−1을 고려하여 이러한 표현의 시퀀스를 예측합니다. h_t와 z_t의 연결은 모델 상태를 형성하며, 이로부터 보상 r_t와 에피소드 연속성 플래그 c_t ∈ {0, 1}이 예측되고 입력이 정보 표현을 보장하기 위해 재구성됩니다(아래 방정식 3).
아래 그림 5는 세계 세계의 장기 영상 예측을 시각화한 것입니다. 인코더와 디코더는 시각적 입력에 CNN(컨벌루션 신경망)을 사용하고 저차원 입력에 MLP(다층 퍼셉트론)를 사용합니다. 동적, 보상 및 지속성 예측 변수도 MLP이며 이러한 표현은 소프트맥스 분포의 벡터에서 샘플링됩니다. DeepMind는 샘플링 단계에서 통과 경사도를 사용합니다.
Actor Critic Learning
Actor Critic 신경망은 세계 모델이 예측한 추상 시퀀스로부터 행동을 전적으로 학습합니다. 환경과 상호 작용하는 동안 DeepMind는 향후 계획 없이 행위자 네트워크에서 샘플링하여 작업을 선택합니다.
배우와 평론가는 모델 상태에서 작업하며 월드 모델에서 학습한 마르코프 표현의 이점을 누릴 수 있습니다. 행위자의 목표는 각 모델 상태에 대한 할인 계수 γ = 0.997에서 기대 수익
을 최대화하는 것입니다. 예측 범위 T = 16을 넘어서는 보상을 설명하기 위해 비평가는 현재 행위자 행동을 고려하여 각 상태에 대한 보상을 예측하는 방법을 배웁니다.
재생된 입력의 표현에서 시작하여 동적 예측자와 행위자는 예상되는 모델 상태 s_1:T , 작업 a_1:T , 보상 r_1:T 및 연속 플래그 c_1:T 의 시퀀스를 생성합니다. 예측 범위를 벗어나는 보상에 대한 수익을 추정하기 위해 DeepMind는 예상 수익과 가치를 통합하는 부트스트랩 λ 수익을 계산합니다.
실험 결과
DeepMind는 고정된 하이퍼파라미터 하에서 다양한 도메인(150개 이상의 작업)에 걸쳐 DreamerV3의 일반성과 확장성을 평가하고 문헌의 기존 SOTA 방법과 비교하기 위해 광범위한 실증적 연구를 수행했습니다. DreamerV3는 도전적인 비디오 게임인 Minecraft에도 적용되었습니다.
DreamerV3의 경우 DeepMind는 확률론적 훈련 전략의 성능을 직접 보고하고 결정론적 전략으로 별도의 평가 실행을 피함으로써 설정을 단순화합니다. 모든 DreamerV3 에이전트는 Nvidia V100 GPU에서 교육을 받았습니다. 아래 표 1은 벤치마크의 개요를 제공합니다.
DreamerV3의 일반성을 평가하기 위해 DeepMind는 연속 및 이산 동작, 시각적 및 저차원 입력, 조밀하고 희박한 보상, 다양한 보상 규모, 2D 및 3D 세계 및 절차적 생성. 아래 그림 1의 결과는 DreamerV3가 모든 도메인에서 강력한 성능을 달성하고 그 중 4개에서 이전의 모든 알고리즘을 능가하는 동시에 모든 벤치마크에서 고정된 하이퍼파라미터를 사용한다는 것을 보여줍니다.
자세한 기술적 세부사항과 실험 결과는 원본 논문을 참조하세요.
위 내용은 AI가 '마인크래프트' 플레이 방법을 처음부터 배웠고, DeepMind AI가 일반화에 획기적인 발전을 이루었습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Binance는 Global Digital Asset Trading Ecosystem의 대 군주이며, 그 특성에는 다음이 포함됩니다. 1. 평균 일일 거래량은 1,500 억 달러를 초과하여 주류 통화의 98%를 차지하며 500 개의 거래 쌍을 지원합니다. 2. 혁신 매트릭스는 파생 상품 시장, Web3 레이아웃 및 교육 시스템을 포함합니다. 3. 기술적 이점은 밀리 초에 일치하는 엔진이며, 최고 처리량은 초당 140 만 건의 트랜잭션입니다. 4. 규정 준수 진행 상황은 15 개국 라이센스를 보유하고 있으며 유럽과 미국에 준수 엔티티를 설립합니다.

ETH 업그레이드 후, 초보자는 손실을 피하기 위해 다음 전략을 채택해야합니다. 1. 숙제를하고 기본 지식과 ETH의 업그레이드 내용을 이해합니다. 2. 통제 위치, 소량으로 물을 테스트하고 투자를 다각화합니다. 3. 거래 계획을 세우고 목표를 명확하게하고 중지 손실 지점을 설정하십시오. 4. 합리적으로 프로파일 링하고 정서적 의사 결정을 피하십시오. 5. 공식적이고 안정적인 거래 플랫폼을 선택하십시오. 6. 단기 변동의 영향을 피하기 위해 장기 보유를 고려하십시오.

거래소는 오늘날의 cryptocurrency 시장에서 중요한 역할을합니다. 그들은 투자자들이 거래 할 수있는 플랫폼 일뿐 만 아니라 시장 유동성 및 가격 발견의 중요한 원천이기도합니다. 세계 최대의 가상 환전 거래소는 상위 10 위이며, 이러한 거래소는 거래량이 훨씬 앞서있을뿐만 아니라 사용자 경험, 보안 및 혁신적인 서비스에서 고유 한 장점이 있습니다. 목록 위에있는 교환은 일반적으로 대규모 사용자 기반과 광범위한 시장 영향을 미치며 거래량 및 자산 유형은 종종 다른 거래소에서 도달하기가 어렵습니다.

크로스 체인 거래를 지원하는 교환 : 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN 거래,이 플랫폼은 다양한 기술을 통해 다중 체인 자산 거래를 지원합니다.

최고 거래소에는 다음이 포함됩니다. 1. 세계 최대의 거래량 인 Binance는 600 개의 통화를 지원하며 스팟 취급 수수료는 0.1%입니다. 2. 균형 잡힌 플랫폼 인 OKX는 708 개의 거래 쌍을 지원하며 영구 계약 처리 수수료는 0.05%입니다. 3. Gate.io, 2700 개의 소규모 통화를 포괄하며 스팟 취급 수수료는 0.1%-0.3%입니다. 4. Coinbase, 미국 규정 준수 벤치 마크, 스팟 취급 수수료는 0.5%입니다. 5. Kraken, 최고 보안 및 정기 예약 감사.

2025 년에 레버리지 거래, 보안 및 사용자 경험에서 뛰어난 성능을 보이는 플랫폼은 다음과 같습니다. 1. OKX, 고주파 거래자에게 적합하여 최대 100 배의 레버리지를 제공합니다. 2. Binance, 전 세계의 다중 통화 거래자에게 적합하며 125 배 높은 레버리지를 제공합니다. 3. Gate.io, 전문 파생 상품 플레이어에게 적합하며 100 배의 레버리지를 제공합니다. 4. 초보자 및 소셜 트레이더에게 적합한 Bitget, 최대 100 배의 레버리지를 제공합니다. 5. 크라켄은 꾸준한 투자자에게 적합하며 5 배의 레버리지를 제공합니다. 6. Bybit, Altcoin Explorers에 적합하며 20 배의 레버리지를 제공합니다. 7. 저비용 거래자에게 적합한 Kucoin, 10 배의 레버리지를 제공합니다. 8. 비트 피 넥스, 시니어 플레이에 적합합니다

가상 통화 가격 상승의 요인은 다음과 같습니다. 1. 시장 수요 증가, 2. 공급 감소, 3. 긍정적 인 뉴스, 4. 낙관적 시장 감정, 5. 거시 경제 환경; 감소 요인에는 다음이 포함됩니다. 1. 시장 수요 감소, 2. 공급 증가, 3. 부정적인 뉴스의 파업, 4. 비관적 시장 감정, 5. 거시 경제 환경.

cryptocurrency 시장의 급락으로 인해 투자자들 사이에 공황이 발생했으며 Dogecoin (Doge)은 가장 어려운 지역 중 하나가되었습니다. 가격은 급격히 하락했으며 분산 금융 (DEFI) (TVL)의 총 가치 잠금 장치도 크게 감소했습니다. "Black Monday"의 판매 물결은 cryptocurrency 시장을 휩쓸었고 Dogecoin은 처음으로 타격을 받았습니다. DefitVl은 2023 년 수준으로 떨어졌고 지난 달 통화 가격은 23.78% 하락했습니다. Dogecoin의 Defitvl은 주로 SOSO 가치 지수의 26.37% 감소로 인해 272 만 달러로 떨어졌습니다. 지루한 Dao 및 Thorchain과 같은 다른 주요 Defi 플랫폼도 TVL도 각각 24.04% 및 20으로 떨어졌습니다.
