Welches Niveau kann die KI erreichen, nachdem sie 70.000 Stunden „Minecraft“-Videos angesehen hat?
Nehmen Sie als Beispiel die „Diamant-Spitzhacke“. Ein fortgeschrittener menschlicher Spieler benötigt 20 Minuten schnelles Klicken und etwa 24.000 Aktionen, um dieses Ding zu erstellen.
Und die heutige KI kann es bereits problemlos aushalten.
哐哐Finden Sie verschiedene Materialien und führen Sie Schritt für Schritt verschiedene Synthesen durch:
Das ist MineDojo, die leistungsstärkste KI in Minecraft von OpenAI.
Es ist auch die weltweit erste KI, die „Diamond Tools“ erstellen kann.
Nicht nur das, auch der Bau einer „Steinhacke“ und eines „einfachen Unterschlupfs“ ist kein Problem:
Selbstverständlich werden auch andere herkömmliche Operationen in „Minecraft“ problemlos von MineDojo erledigt.
Zum Beispiel Schwimmen, Jagen, Säulenspringen usw.:
Der Forscher Bowen Baker sagte, warum OpenAI möchte, dass KI diese Fähigkeiten erlernt:
Das liegt größtenteils daran, dass wir menschliches Verhalten beim Surfen simulieren Internet.
Wie wir gerade erwähnt haben, besteht die „Art, MineDojo zu üben“ darin, sich Videos anzusehen.
Diese Videoinhalte werden von menschlichen Spielern auf YouTube gepostet, um zu zeigen, wie sie „Minecraft“ spielen.
Nachdem diese KI 70.000 Stunden Video angeschaut hatte, lernte sie, wie man verschiedene Aufgaben im Spiel ausführt.
Diese Methode wird im Allgemeinen als Nachahmungslernen bezeichnet. Dabei wird das neuronale Netzwerk trainiert, durch Beobachtung menschlichen Verhaltens zu lernen.
Obwohl es bereits viele diesbezügliche Studien gab, gibt es immer noch einige Probleme, die noch gelöst werden müssen.
„Tagging“ ist einer davon.
Der traditionelle Weg besteht darin, jede Aktion mit einem Etikett zu versehen: Wenn Sie dies tun, wird dies passieren, wenn Sie das tun, wird das passieren.
Aber die denkbare Konsequenz dieses Ansatzes ist, dass der Arbeitsaufwand zu groß ist und weniger Daten für das Training verwendet werden können.
Daher haben OpenAI-Forscher einen anderen Ansatz gewählt und eine andere Forschungsidee entwickelt – Video Pre-Training (VPT):
Die Kernidee dieser Methode besteht darin, ein anderes neuronales Netzwerk speziell zu trainieren Entwickelt, um die mühsame „Etikettierungsarbeit“ zu erledigen.
Zu diesem Zweck fanden die Forscher zunächst eine Gruppe von Spielern und forderten sie auf, zunächst „Minecraft“ zu spielen, wobei sie natürlich auch die Anzahl der Tastatur- und Mausklicks aufzeichnen mussten.
Auf diese Weise erhielten die Forscher zunächst rund 2000 Stunden beschriftete Daten.
Auf dieser Grundlage begannen sie, ein Modell zu trainieren, um Tastatur- und Mausbewegungen und Ergebnisse auf dem Bildschirm abzugleichen –
Zum Beispiel, unter welchen Umständen ein Mausklick dazu führt, dass die Figur im Spiel eine Axt schwingt.
Nach dem Training dieses Modells werden 70.000 Stunden unbeschriftete Videos eingeführt und mit seiner Unterstützung ein riesiger und nutzbarer Datensatz entstehen.
Der nächste Schritt besteht darin, zur vorherigen Idee des Nachahmungslernens zurückzukehren und diese neuen Daten zum Trainieren der KI zu verwenden.
Obwohl Nachahmungslernen als Zweig des Verstärkungslernens bezeichnet werden kann, haben OpenAI-Forscher herausgefunden, dass durch VPT trainierte KI Aufgaben erledigen kann, die durch Verstärkungslernen allein nicht gelöst werden können.
Als würde man Holzbretter herstellen und sie in einen Tisch verwandeln (erfordert etwa 970 aufeinanderfolgende Aktionen).
Darüber hinaus haben Forscher herausgefunden, dass die Wirkung am besten ist, wenn Nachahmungslernen und Verstärkungslernen kombiniert werden.
In Ergänzung zu dieser Forschung zu „Minecraft“ sagten OpenAI-Forscher auch:
Unsere KI kann auch andere Aufgaben ausführen, wie zum Beispiel das Durchsuchen von Websites mit der Maus, das Buchen von Flügen oder das Online-Shopping.
Tatsächlich wurden auch die Höhepunkte der OpenAI-Forschung, abgesehen von der VPT-Methode selbst, den beiden Hauptelementen ihrer Forschung – „Minecraft“ und Videos – heiß diskutiert . Fokus.
Ein Hauptmerkmal des Spiels „Minecraft“ ist seine Offenheit. Spieler können in dieser virtuellen Welt viele unerwartete Meisterwerke schaffen.
Im Gegensatz zu den vorherigen Spielumgebungen, in denen durch Verstärkungslernen die KI trainiert wurde, endeten die meisten mit „Gewinn oder Verlust“ als Ergebnis, aber oft können die Fähigkeiten der später trainierten KI diese „Beschränkung“ überschreiten.
Aber in „Minecraft“ gibt es kein „Gewinnen oder Verlieren“, die KI kann hier ihre volle Rolle spielen. Daher sagten OpenAI-Forscher:
„Minecraft“ ist ein gutes Experimentierfeld für das Training von KI.
Und das hat auch die Anerkennung von NeurIPS gewonnen – MineDojo hat auf der diesjährigen Top-Konferenz eine Auszeichnung gewonnen.
Was das zweite heiße Thema dieser Studie betrifft, „Video“, wie Sony-Geschäftsführer Peter Stone sagte:
Video ist eine Schulungsressource mit großem Potenzial.
Aber es scheint, dass OpenAI-Forscher mit diesem Ergebnis nicht zufrieden sind. Sie glauben, dass das Sammeln von 1 Million Stunden „Minecraft“-Videos ihre KI noch besser machen wird.
Natürlich erregte diese Forschung auch bei Internetnutzern große Aufmerksamkeit und es gab auch einige interessante Diskussionen:
Die Menschen wollten KI bewusst machen, aber erst als sie bewusst wurden, wurde ihnen klar, dass sie zum Zuschauen gezwungen werden mussten So ein langes Video. Müde genug.
Papieradresse: https://openai.com/blog/vpt/
[1]https://www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could /
[2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ[3]https://www.youtube.com/watch?v=fJn9B64Znrk
Das obige ist der detaillierte Inhalt vonAI hat sich 70.000 Stunden „Minecraft'-Videos angesehen, um fortgeschrittene menschliche Fähigkeiten zu erlernen: Es ist so schmerzhaft. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!