2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.
DeepMind의 AI 에이전트가 또 스스로를 놀리고 있습니다!
BBF라는 이 남자를 보세요. 그는 단 2시간 만에 26개의 Atari 게임을 마스터했습니다. 그의 효율성은 그의 모든 전임자를 능가하는 인간의 효율성과 비슷합니다.
AI 에이전트는 항상 강화 학습을 통해 문제를 해결하는 데 효과적이었지만 가장 큰 문제는 이 방법이 매우 비효율적이며 탐색하는 데 오랜 시간이 걸린다는 것입니다.
Pictures
BBF가 가져온 혁신은 바로 효율성 측면에서 이루어졌습니다.
전체 이름이 Bigger, Better 또는 Faster라고 불릴 수도 있습니다.
그리고 단 하나의 카드로 훈련을 완료할 수 있으며 컴퓨팅 성능 요구 사항도 훨씬 줄어듭니다.
BBF는 Google DeepMind와 몬트리올 대학이 공동으로 제안한 데이터와 코드는 현재 오픈 소스입니다.
인간의 최대 5배 성능을 달성할 수 있습니다
BBF 게임의 성능을 평가하는 데 사용되는 값을 IQM이라고 합니다.
IQM은 다면적인 게임 성능을 종합적으로 평가한 점수입니다. 이 글의 IQM 점수는 인간을 기준으로 정규화되었습니다.
이전의 여러 결과와 비교하여 BBF는 26개의 Atari 게임이 포함된 Atari 100K 테스트 데이터 세트에서 가장 높은 IQM 점수를 달성했습니다.
그리고 훈련된 26개 게임에서 BBF의 성능은 인간의 성능을 능가했습니다.
유사한 성능을 발휘하는 Eff.Zero와 비교하여 BBF는 GPU 시간을 거의 절반 정도 소비합니다.
유사한 GPU 시간을 소비하는 SPR과 SR-SPR의 경우 성능이 BBF에 크게 뒤떨어집니다.
사진
반복 테스트에서 BBF가 특정 IQM 점수에 도달하는 비율은 항상 높은 수준을 유지했습니다.
전체 테스트의 1/8이 넘는 테스트에서도 인간의 5배에 달하는 성능을 달성했습니다.
Pictures
훈련 없이 다른 Atari 게임을 추가하더라도 BBF는 인간 IQM 점수의 절반 이상을 달성할 수 있습니다.
이 29개의 훈련되지 않은 게임만 보면 BBF의 점수는 인간의 점수의 40~50%입니다.
Pictures
Modified based on SR-SPR
BBF 연구를 이끄는 문제는 샘플 크기가 희박할 때 심층 강화 학습 네트워크를 확장하는 방법입니다.
이 문제를 연구하기 위해 DeepMind는 Atari 100K 벤치마크에 집중했습니다.
그러나 DeepMind는 단순히 모델 크기를 늘리는 것만으로는 성능이 향상되지 않는다는 것을 곧 발견했습니다.
Pictures
딥러닝 모델 설계에서는 단계당 업데이트 횟수(Replay Ratio, RR)가 중요한 매개변수입니다.
특히 Atari 게임의 경우 RR 값이 클수록 게임에서 모델의 성능이 높아집니다.
마지막으로 DeepMind는 SR-SPR을 기본 엔진으로 사용하며 SR-SPR의 RR 값은 최대 16까지 도달할 수 있습니다.
딥마인드는 종합적인 고려 끝에 BBF의 RR 값으로 8을 선택했습니다.
일부 사용자가 RR=8의 컴퓨팅 비용을 지출하기를 꺼리는 것을 고려하여 DeepMind는 BBF의 RR=2 버전도 개발했습니다
Pictures
DeepMind는 SR-SPR에서 많은 내용을 수정한 후 자체적으로 채택했습니다. BBF에서 얻은 감독 교육에는 주로 다음과 같은 측면이 포함됩니다.
- 더 높은 컨볼루션 레이어 재설정 강도: 컨볼루션 레이어 재설정 강도를 높이면 무작위 대상에 대한 섭동 진폭이 증가하여 모델의 성능이 향상되고 손실이 줄어듭니다. BBF의 재설정 강도가 증가하면 섭동 진폭이 SR -SPR에서 변경됩니다. 20%에서 50%로 증가
- 더 큰 네트워크 크기: 신경망 레이어 수를 3에서 15 레이어로 늘리고 너비를 4배 늘립니다.
- 업데이트 범위(n) 감소: 모델을 개선하려면 성능이 필요합니다. n의 고정되지 않은 값 사용. BBF는 40,000 경사 단계마다 재설정됩니다. 각 재설정의 처음 10,000 경사 단계에서 n은 10에서 3으로 기하급수적으로 감소합니다. 붕괴 단계는 BBF 훈련 과정의 25%를 차지합니다
- 더 큰 붕괴 인자(γ): 어떤 사람들은 학습 과정에서 γ 값을 높이면 모델 성능이 향상될 수 있음을 발견했습니다. BBF의 γ 값은 기존 0.97에서 0.997로 증가합니다
- Weight attenuation: 과적합 발생을 피하기 위해 BBF의 감쇠는 약 0.1 입니다. : 원본 SR-SPR에 포함된 NoisyNet은 모델 성능을 향상시킬 수 없습니다
Pictures
Pictures
Pictures
https://arxiv.org/abs/2305.19452GitHub 프로젝트 페이지: https://github.com/google-research/google-research/tree/master/bigger_better_faster
참조 링크: [1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4
[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the -atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/— 끝 —위 내용은 2시간이면 인간을 능가할 수 있다! DeepMind의 최신 AI는 26개의 Atari 게임을 빠르게 실행합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud
