Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft' zu planen-KI-php.cn

Inhaltsverzeichnis

Obwohl es viele Daten gibt, kann ich sie nicht verwenden

Video-Pre-Training-Modell – VPT

Heim

Technologie-Peripheriegeräte

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft' zu planen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 05:01 PM

ai 模型

Vor kurzem hat OpenAI, das GPT scheinbar hinter sich gelassen hat, ein neues Leben begonnen.

Nach dem Training mit riesigen unbeschrifteten Videos und ein paar beschrifteten Daten lernte die KI endlich, in Minecraft Diamantspitzhacken herzustellen.

Der gesamte Vorgang dauert für einen Hardcore-Spieler mindestens 20 Minuten und erfordert insgesamt 24.000 Operationen.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Diese Sache scheint einfach zu sein, ist aber für KI sehr schwierig.

Ein 7-jähriges Kind kann es in nur 10 Minuten lernen

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft' zu planen

Bei der einfachsten Holzspitzhacke ist es für menschliche Spieler nicht allzu schwierig, sie von Grund auf zu lernen.

Mit einem einzigen Video kann ein Geek den nächsten in weniger als 3 Minuten unterrichten.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Das Demonstrationsvideo ist 2 Minuten und 52 Sekunden lang

Allerdings ist die Herstellung eines Diamantpicks viel komplizierter.

Aber auch so kann ein 7-jähriges Kind es lernen, nachdem es sich nur ein zehnminütiges Demonstrationsvideo angesehen hat.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Die Schwierigkeit dieser Mission besteht hauptsächlich darin, wie man die Diamantenmine gräbt.

Der Prozess lässt sich grob in 12 Schritte zusammenfassen: Zuerst den Pixelblock „Holz“ mit bloßen Händen planen, dann die Holzblöcke aus den Baumstämmen synthetisieren, aus den Holzblöcken Holzstäbe herstellen, die Holzstäbe dazu verwenden Stellen Sie den Werkstattausrüstungstisch her und verwenden Sie die Werkbank, um Holzhacken herzustellen. Verwenden Sie eine Holzspitzhacke, um Steine zu schlagen, fügen Sie Steine zu Holzstöcken hinzu, um eine Steinspitzhacke herzustellen, und verwenden Sie eine Steinspitzhacke, um einen Ofen zu bauen. Der Ofen verarbeitet Eisenerz Eisenerz schmilzt zu Eisenbarren, aus den Eisenbarren werden Eisenspitzhacken hergestellt und mit den Eisenspitzhacken werden Diamanten gegraben.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Jetzt liegt der Druck auf der KI-Seite.

Zufälligerweise haben CMU, OpenAI, DeepMind, Microsoft Research und andere Institutionen seit 2019 einen entsprechenden Wettbewerb gestartet – MineRL.

Die Teilnehmer müssen einen Agenten für künstliche Intelligenz entwickeln, der „Werkzeuge von Grund auf bauen und automatisch Diamantenminen finden und abbauen kann“ – der Schnellste gewinnt.

Was war das Ergebnis?

Nach dem ersten MineRL-Wettbewerb „lernte ein 7-jähriges Kind es, nachdem es sich ein 10-minütiges Video angesehen hatte, aber die KI konnte es nach 8 Millionen Schritten immer noch nicht herausfinden.“ veröffentlicht im Nature-Magazin.

Obwohl es viele Daten gibt, kann ich sie nicht verwenden

Als Sandbox-Konstruktionsspiel eignet sich „Minecraft“ aufgrund seiner hohen Offenheit der Spielerstrategien besonders für das Lernen und Treffen verschiedener KI-Modelle Virtuelle Umgebung im Spiel. Ein Testgelände und Prüfstein für Fähigkeiten.

Und da es sich um ein Spiel auf „nationaler Ebene“ handelt, ist es einfach, online Videos zu „Minecraft“ zu finden.

Aber egal, ob es darum geht, ein Tutorial zu erstellen oder Ihre eigene Arbeit vorzuführen, in gewisser Weise ist es nur das Ergebnis, das auf dem Bildschirm angezeigt wird.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Mit anderen Worten, die Leute, die sich das Video ansehen, können nur wissen, was der Spitzenreiter getan hat und wie er es getan hat, aber sie haben keine Möglichkeit zu wissen, wie er es getan hat.

Genauer gesagt ist das, was auf dem Computerbildschirm angezeigt wird, nur das Ergebnis, und die Bedienschritte sind das ständige Klicken des Besitzers auf der Tastatur und die ständige Bewegung der Maus. Dieser Teil ist nicht sichtbar.

Sogar dieser Prozess wurde bearbeitet, und die Leute können ihn wahrscheinlich nicht lernen, nachdem sie ihn gesehen haben, geschweige denn KI.

Erschwerend kommt hinzu, dass sich viele Spieler darüber beschweren, dass das Hobeln von Holz im Spiel langweilig ist und zu sehr dem Erledigen von Hausaufgaben und dem Erledigen von Aufgaben ähnelt. Infolgedessen gibt es nach einer Welle von Updates viele Tools, die kostenlos erworben werden können ... Jetzt sind selbst die Daten schwer zu finden.

Wenn OpenAI KI lernen lassen möchte, „Minecraft“ zu spielen, muss es einen Weg finden, diese riesigen, unbeschrifteten Videodaten zu nutzen.

Video-Pre-Training-Modell – VPT

So entstand VPT.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Papieradresse: https://cdn.openai.com/vpt /Paper.pdf

Diese Sache ist neu, aber nicht kompliziert. Es handelt sich um eine halbüberwachte Nachahmungslernmethode.

Erfassen Sie zunächst eine Datenwelle, um die Daten von Outsourcern zu kommentieren, die Spiele spielen, einschließlich Video- und Tastatur- und Mausbedienungsaufzeichnungen.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

VPT-Methodenübersicht

#🎜 🎜 #

Anschließend verwendeten die Forscher diese Daten, um ein inverses Dynamikmodell (IDM) zu erstellen, das vorhersagen kann, wie sich Tastatur und Maus bei jedem Schritt im Video bewegen.

Auf diese Weise wird die gesamte Aufgabe viel einfacher und es werden nur viel weniger Daten benötigt, um den Zweck zu erreichen.

Nachdem Sie IDM mit einer kleinen Menge ausgelagerter Daten abgeschlossen haben, können Sie IDM verwenden, um größere, unbeschriftete Datensätze zu kennzeichnen.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Der Einfluss grundlegender Modelltrainingsdaten auf die Feinabstimmung#🎜🎜 ##🎜 🎜#Nach 70.000 Trainingsstunden kann das Verhaltensklonmodell von OpenAI verschiedene Aufgaben erfüllen, die andere Modelle nicht erfüllen können.

Das Modell lernte, wie man Bäume fällt und Holz sammelt, wie man aus Holz Holzleisten herstellt und wie man aus Holzleisten Tische herstellt. Diese Dinge erfordern, dass ein relativ erfahrener Spieler weniger als 50 Sekunden lang agiert.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen Das Modell ist nicht nur ein Tisch, sondern kann auch schwimmen, jagen und essen.

Es gibt sogar eine coole Operation „Laufen, Springen und Bauen“, das heißt, wenn Sie abheben, legen Sie einen Ziegel- oder Holzblock unter Ihre Füße und Sie können ein Gebäude bauen, indem Sie auf eine Säule springen. Dies ist ein Pflichtkurs für Hardcore-Spieler.

Erstellen einer Tabelle (0 Schuss)

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Jagd (0 Schuss)

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Einfache Version „Laufen und Springen“ (0 Schuss)

Für Damit das Modell einige detailliertere Aufgaben ausführen kann, wird der Datensatz im Allgemeinen auf eine kleinere Größe abgestimmt und unterscheidet kleine Richtungen.

OpenAI hat eine Studie durchgeführt, die zeigte, wie gut sich ein mit VPT trainiertes Modell nach einer Feinabstimmung an nachgelagerte Datensätze anpassen kann.

Die Forscher luden Menschen ein, 10 Minuten lang „Minecraft“ zu spielen und aus einfachen Materialien ein Haus zu bauen. Sie hoffen, dass sie auf diese Weise die Fähigkeit des Modells verbessern können, einige Aufgaben zu Beginn des Spiels auszuführen, beispielsweise den Bau einer Werkbank.

Nach der Feinabstimmung des Datensatzes stellten die Forscher nicht nur fest, dass das Modell die anfänglichen Aufgaben effizienter erledigte, sondern auch, dass das Modell selbst wusste, wie man eine Holzwerkbank und eine Holzwerkbank aus Stein herstellt .

Manchmal können Forscher auch sehen, wie das Modell in Eigenregie einen einfachen Unterschlupf baut, das Dorf durchsucht und Kisten plündert.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Der gesamte Prozess der Herstellung eines Steinpickels (die unten angegebene Zeit ist die Zeit, die ein erfahrener Spieler benötigt, um dieselbe Aufgabe auszuführen)

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Herstellung eines Steinpickels

Dann schauen wir uns an, wie OpenAI-Experten es verfeinert haben.

Die Methode, die sie verwenden, ist Reinforcement Learning (RL).

Die meisten RL-Methoden gehen diese Herausforderungen an, indem sie Prioritäten stochastisch untersuchen, d. h. Modelle werden oft dazu angeregt, zufällige Aktionen durch Entropie zu belohnen. Das VPT-Modell sollte ein besseres Vorgängermodell für RL sein, da die Simulation menschlichen Verhaltens möglicherweise hilfreicher ist als das Ergreifen zufälliger Aktionen.

Die Forscher haben das Modell für die schwierige Aufgabe des Sammelns von Diamantspitzhacken eingerichtet, eine Funktion, die es in Minecraft noch nie gegeben hat, da die Ausführung der gesamten Aufgabe bei Verwendung der nativen Mensch-Maschine-Schnittstelle viel schwieriger ist.

Die Herstellung einer Diamantspitzhacke erfordert eine lange und komplexe Reihe von Unteraufgaben. Um diese Aufgabe beherrschbar zu machen, belohnten die Forscher den Agenten für jedes Element in der Sequenz.

Schockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft zu planen

Sie fanden heraus, dass eine RL-Richtlinie, die durch zufällige Initialisierung trainiert wurde (Standard-RL-Ansatz), fast keine Belohnung erhielt, nie lernte, Protokolle zu sammeln, und selten Stöcke sammelte.

Im krassen Gegensatz dazu wurde das VPT-Modell so optimiert, dass es nicht nur lernte, wie man eine Diamantspitzhacke herstellt, sondern auch beim Sammeln aller Gegenstände Erfolge auf menschlicher Ebene erzielte.

Und dies ist das erste Mal, dass jemand in „Minecraft“ ein Computermodell zeigt, mit dem Diamantwerkzeuge hergestellt werden können.

Das obige ist der detaillierte Inhalt vonSchockiert! Nach 70.000 Trainingsstunden lernte das Modell von OpenAI, Holz in „Minecraft' zu planen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7540

CakePHP-Tutorial

1380

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Debian Mail Server Firewall -Konfigurationstipps Apr 13, 2025 am 11:42 AM

Das Konfigurieren der Firewall eines Debian -Mailservers ist ein wichtiger Schritt zur Gewährleistung der Serversicherheit. Im Folgenden sind mehrere häufig verwendete Firewall -Konfigurationsmethoden, einschließlich der Verwendung von Iptables und Firewalld. Verwenden Sie Iptables, um Firewall so zu konfigurieren, dass Iptables (falls bereits installiert) installiert werden:

Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

So implementieren Sie die Dateisortierung nach Debian Readdir Apr 13, 2025 am 09:06 AM

In Debian -Systemen wird die Readdir -Funktion zum Lesen des Verzeichnisinhalts verwendet, aber die Reihenfolge, in der sie zurückgibt, ist nicht vordefiniert. Um Dateien in einem Verzeichnis zu sortieren, müssen Sie zuerst alle Dateien lesen und dann mit der QSORT -Funktion sortieren. Der folgende Code zeigt, wie Verzeichnisdateien mithilfe von Readdir und QSORT in Debian System sortiert werden:#include#include#include#include // benutzerdefinierte Vergleichsfunktion, verwendet für QSortIntCompare (constvoid*a, constvoid*b) {rettrcmp (*(*(*(

Debian Mail Server SSL -Zertifikat -Installationsmethode Apr 13, 2025 am 11:39 AM

Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

So führen Sie die digitale Signaturüberprüfung mit Debian OpenSSL durch Apr 13, 2025 am 11:09 AM

Unter Verwendung von OpenSSL für die digitale Signaturüberprüfung im Debian -System können Sie folgende Schritte befolgen: Vorbereitung für die Installation von OpenSSL: Stellen Sie sicher, dass Ihr Debian -System OpenSSL installiert hat. Wenn nicht installiert, können Sie den folgenden Befehl verwenden, um es zu installieren: sudoaptupdatesudoaptininTallopenSSL, um den öffentlichen Schlüssel zu erhalten: Die digitale Signaturüberprüfung erfordert den öffentlichen Schlüssel des Unterzeichners. In der Regel wird der öffentliche Schlüssel in Form einer Datei wie Public_key.pe bereitgestellt

Wie Debian OpenSSL verhindert, dass Mann-in-the-Middle-Angriffe Apr 13, 2025 am 10:30 AM

In Debian Systems ist OpenSSL eine wichtige Bibliothek für Verschlüsselung, Entschlüsselung und Zertifikatverwaltung. Um einen Mann-in-the-Middle-Angriff (MITM) zu verhindern, können folgende Maßnahmen ergriffen werden: Verwenden Sie HTTPS: Stellen Sie sicher, dass alle Netzwerkanforderungen das HTTPS-Protokoll anstelle von HTTP verwenden. HTTPS verwendet TLS (Transport Layer Security Protocol), um Kommunikationsdaten zu verschlüsseln, um sicherzustellen, dass die Daten während der Übertragung nicht gestohlen oder manipuliert werden. Überprüfen Sie das Serverzertifikat: Überprüfen Sie das Serverzertifikat im Client manuell, um sicherzustellen, dass es vertrauenswürdig ist. Der Server kann manuell durch die Delegate -Methode der URLSession überprüft werden

Wie man Debian Hadoop Log Management macht Apr 13, 2025 am 10:45 AM

Wenn Sie Hadoop-Protokolle auf Debian verwalten, können Sie die folgenden Schritte und Best Practices befolgen: Protokollaggregation Aktivieren Sie die Protokollaggregation: Set Garn.log-Aggregation-Enable in true in der Datei marn-site.xml, um die Protokollaggregation zu aktivieren. Konfigurieren von Protokoll-Retentionsrichtlinien: Setzen Sie Garn.log-Aggregation.Retain-Sekunden, um die Retentionszeit des Protokolls zu definieren, z. B. 172800 Sekunden (2 Tage). Log Speicherpfad angeben: über Garn.n

CentOS Shutdown -Befehlszeile Apr 14, 2025 pm 09:12 PM

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

See all articles