충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.-일체 포함-php.cn

데이터가 많아도 못쓰겠다

동영상 사전 훈련 모델 - VPT

집

기술 주변기기

일체 포함

충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 05:01 PM

ai 모델

최근 GPT를 뒤로한 듯한 OpenAI가 새로운 삶을 시작했습니다.

레이블이 지정되지 않은 대규모 비디오와 약간의 레이블이 지정된 데이터로 훈련한 후 AI는 마침내 Minecraft에서 다이아몬드 곡괭이를 만드는 방법을 배웠습니다.

하드코어 플레이어라면 전체 프로세스를 완료하는 데 최소 20분이 걸리고 총 24,000번의 작업이 필요합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이건 간단한 것 같지만 AI에게는 매우 어렵습니다.

7세 어린이도 10분이면 배울 수 있습니다

충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

가장 간단한 나무 따기의 경우, 인간 플레이어가 처음부터 과정을 배우는 것은 그리 어렵지 않습니다.

너드는 영상 하나로 3분도 안 되어 다음 사람을 가르칠 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

시연 영상의 길이는 2분 52초입니다

다이아몬드 픽을 만드는 것은 훨씬 더 복잡합니다.

그래도 7살 아이는 10분 정도의 시연 영상만 봐도 배울 수 있어요.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이 미션의 난이도는 주로 다이아몬드 광산을 파는 방법입니다.

과정은 대략 12단계로 요약할 수 있습니다. 먼저 맨손으로 픽셀 블록 "나무"를 계획한 다음 통나무에서 나무 블록을 합성하고, 나무 블록을 사용하여 나무 막대기를 만들고, 나무 막대기를 사용하여 작업대 장비 테이블을 만들고, 작업대를 사용하여 나무 곡괭이를 만드세요. 나무 곡괭이를 사용하여 돌을 두드리고, 나무 막대에 돌을 추가하여 돌 곡괭이를 만들고, 돌 곡괭이를 사용하여 화로를 만들고, 화로는 철광석을 처리합니다. 철광석은 녹아 철괴가 되고, 철괴는 철곡괭이를 만들고, 철곡괭이는 다이아몬드를 파냅니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

이제 압력은 AI 측에 있습니다.

공교롭게도 CMU, OpenAI, DeepMind, Microsoft Research 및 기타 기관에서는 2019년부터 관련 대회인 MineRL을 시작했습니다.

참가자는 "도구를 처음부터 만들고 자동으로 다이아몬드 광산을 찾아 채굴"할 수 있는 인공 지능 에이전트를 개발해야 합니다. 승리 조건도 매우 간단합니다. 가장 빠른 사람이 승리합니다.

결과는 어땠나요?

첫 번째 MineRL 대회가 끝난 후 "7살 아이가 10분짜리 영상을 보고 배웠는데, 800만 걸음을 걸어도 AI가 알아내지 못했습니다." 네이처 매거진에 게재되었습니다.

데이터가 많아도 못쓰겠다

샌드박스 구축 게임인 "마인크래프트"는 특히 플레이어 전략의 개방성이 높고, 다양한 AI 모델 학습과 의사결정에 적합합니다. 게임 내 가상 환경은 능력을 시험하는 장소이자 시금석입니다.

그리고 '국가급' 게임인 만큼 온라인에서도 '마인크래프트' 관련 영상을 쉽게 찾아볼 수 있습니다.

그러나 튜토리얼을 작성하든 자신의 작업을 과시하든 어느 정도는 화면에 표시된 결과일 뿐입니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

즉, 영상을 보는 사람들은 업 리더가 무엇을 했는지, 어떻게 했는지만 알 수 있을 뿐, 어떻게 했는지는 알 길이 없습니다.

좀 더 구체적으로 말하면 컴퓨터 화면에 보이는 것은 결과일 뿐이고, 조작 단계는 업 소유자가 계속해서 키보드를 클릭하고 마우스를 계속해서 움직이는 부분입니다.

이 과정마저도 편집이 되어서 AI는 커녕, 보고 나면 배우지도 못할 것 같아요.

설상가상으로 많은 플레이어들은 게임에서 나무를 대패질하는 것이 숙제를 하고 작업을 완료하는 것과 너무 비슷해서 지루하다고 불평합니다. 그 결과, 일련의 업데이트 이후에는 무료로 선택할 수 있는 도구가 많이 생겼습니다... 이제는 데이터조차 찾기가 어렵습니다.

OpenAI가 AI에게 "마인크래프트" 플레이 방법을 배우게 하려면 라벨이 지정되지 않은 대규모 비디오 데이터를 사용할 수 있는 방법을 찾아야 합니다.

동영상 사전 훈련 모델 - VPT

그래서 VPT가 탄생했습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

페이퍼 주소: https://cdn.openai.com/vpt/Paper.pdf

이건 새롭지만, 복잡하지 않습니다. 감독 모방 학습 방법.

먼저 비디오, 키보드, 마우스 조작 기록 등 아웃소싱 업체가 플레이한 데이터에 주석을 달기 위해 일련의 데이터를 수집합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

VPT 방법 개요

그런 다음 연구원들은 이러한 데이터를 사용하여 쥐가 어떻게 행동하는지 비디오의 각 단계의 핵심을 추론할 수 있는 역동역학 모델(IDM)을 만들었습니다. 이동하다?

이렇게 하면 전체 작업이 훨씬 단순해지고 목표를 달성하는 데 훨씬 적은 양의 데이터만 필요합니다.

소량의 아웃소싱 데이터로 IDM을 완성한 후 IDM을 사용하여 레이블이 없는 더 큰 데이터 세트에 레이블을 지정할 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

기본 모델 훈련 데이터가 미세 조정에 미치는 영향

70,000시간의 훈련 후에 OpenAI의 행동 복제 모델은 다른 모델이 할 수 없는 다양한 작업을 달성할 수 있습니다.

모델은 나무를 자르고 나무를 모으는 방법, 나무를 사용하여 나무 띠를 만드는 방법, 나무 띠를 사용하여 테이블을 만드는 방법을 배웠습니다. 이러한 일련의 작업을 수행하려면 상대적으로 숙련된 플레이어가 50초 미만 동안 작동해야 합니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

모델은 테이블을 만드는 것 외에도 수영, 사냥, 식사도 할 수 있습니다.

"달리기, 점프하기, 건물 짓기"라는 멋진 조작도 있습니다. 즉, 이륙할 때 발 밑에 벽돌이나 나무 블록을 놓고 점프하면서 기둥을 세울 수 있다는 것입니다. 하드코어 플레이어에게는 필수 코스입니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

테이블 만들기(0샷)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

사냥(0샷)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

"달리고 점프하기" 심플 버전(0샷)

For 모델이 좀 더 세부적인 작업을 완료할 수 있도록 데이터 세트는 일반적으로 더 작은 크기로 미세 조정되고 작은 방향을 구별합니다.

OpenAI는 VPT로 훈련된 모델이 미세 조정 후 다운스트림 데이터 세트에 얼마나 잘 적응할 수 있는지 보여주는 연구를 수행했습니다.

연구원들은 사람들을 초대하여 "마인크래프트"를 10분 동안 플레이하고 기본 재료를 사용하여 집을 짓도록 했습니다. 그들은 이러한 방식으로 작업대 건설과 같은 일부 초기 게임 작업을 수행하는 모델의 능력을 향상시킬 수 있기를 바라고 있습니다.

데이터 세트를 미세 조정한 후 연구원들은 모델이 초기 작업을 수행하는 데 더 효율적이라는 것을 발견했을 뿐만 아니라 모델 자체가 나무 작업대와 나무 작업대를 만드는 방법을 이해하고 있음을 발견했습니다. .

때로는 모델이 스스로 투박한 대피소를 짓고, 마을을 수색하고, 상자를 약탈하는 모습도 연구자들이 볼 수 있습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

돌픽을 만드는 전체 과정 (아래 표시된 시간은 숙련된 플레이어가 동일한 작업을 수행하는 데 걸리는 시간입니다)

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

돌픽 만들기

그럼 OpenAI 전문가들이 어떻게 미세 조정했는지 살펴보겠습니다.

그들이 사용하는 방법은 강화 학습(RL)입니다.

대부분의 RL 방법은 확률론적으로 사전 조사를 통해 이러한 문제를 해결합니다. 즉, 모델은 종종 엔트로피를 통해 무작위 행동에 보상하도록 인센티브를 받습니다. VPT 모델은 인간 행동을 시뮬레이션하는 것이 무작위 조치를 취하는 것보다 더 도움이 될 수 있으므로 RL에 대한 더 나은 이전 모델이어야 합니다.

연구원들은 Minecraft에서 이전에는 볼 수 없었던 기능인 다이아몬드 곡괭이를 수집하는 힘든 작업을 위한 모델을 설정했습니다. 기본 인간-기계 인터페이스를 사용할 때 전체 작업을 수행하는 것이 훨씬 더 어렵기 때문입니다.

다이아몬드 곡괭이를 제작하려면 길고 복잡한 일련의 하위 작업이 필요합니다. 이 작업을 다루기 쉽게 만들기 위해 연구원들은 시퀀스의 각 항목에 대해 에이전트에게 보상을 제공했습니다.

충격! 70,000시간의 훈련 후 OpenAI의 모델은 Minecraft에서 나무를 계획하는 방법을 배웠습니다.

그들은 무작위 초기화(표준 RL 접근 방식)로 훈련된 RL 정책이 거의 보상을 받지 못했고 로그 수집 방법을 배우지 않았으며 스틱을 거의 수집하지 않는다는 것을 발견했습니다.

완전히 대조적으로 VPT 모델은 다이아몬드 곡괭이 제작 방법을 배울 수 있을 뿐만 아니라 모든 아이템 수집에서 인간 수준의 성공도 달성할 수 있도록 미세 조정되었습니다.

그리고 누군가가 "마인크래프트"에서 다이아몬드 도구를 만들 수 있는 컴퓨터 모델을 보여준 것은 이번이 처음입니다.

위 내용은 충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7540

Cakephp 튜토리얼

1380

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

데비안 메일 서버 방화벽 구성 팁 Apr 13, 2025 am 11:42 AM

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Readdir가 다른 도구와 통합하는 방법 Apr 13, 2025 am 09:42 AM

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Debian Readdir의 파일 정렬을 구현하는 방법 Apr 13, 2025 am 09:06 AM

Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

데비안 메일 서버 SSL 인증서 설치 방법 Apr 13, 2025 am 11:39 AM

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

Debian OpenSSL을 사용하여 디지털 서명 검증을 수행하는 방법 Apr 13, 2025 am 11:09 AM

Debian 시스템에서 Digital Signature Verification에 OpenSSL을 사용하면 다음을 수행 할 수 있습니다. OpenSSL 설치 준비 : Debian 시스템이 OpenSSL이 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. Sudoaptupdatesudoaptinstallopenssl 공개 키를 얻으려면 : 디지털 서명 검증에는 서명자의 공개 키가 필요합니다. 일반적으로 공개 키는 public_key.pe와 같은 파일 형태로 제공됩니다.

데비안을 오류하는 방법은 중간 중간의 공격을 방해합니다 Apr 13, 2025 am 10:30 AM

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

데비안 하프 로그 관리를 수행하는 방법 Apr 13, 2025 am 10:45 AM

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해

Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

See all articles

충격! 70,000시간의 훈련 후 OpenAI의 모델은 'Minecraft'에서 나무를 계획하는 방법을 배웠습니다.

데이터가 많아도 못쓰겠다

동영상 사전 훈련 모델 - VPT

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제