Kann das Transformers+World-Modell tiefes Verstärkungslernen ersparen?

王林
Freigeben: 2023-05-04 09:19:06
nach vorne
1130 Leute haben es durchsucht

​Viele Menschen wissen, dass AlphaGo, das Li Sedol, Ke Jie und andere internationale Top-Schachspieler besiegte, insgesamt drei Iterationen hatte, nämlich das AlphaGo Lee der ersten Generation, das Li Sedol besiegte, und das AlphaGo Master der zweiten Generation, das Ke besiegte Jie und der AlphaGo-Meister der zweiten Generation, der Li Sedol besiegte. Schlagen Sie die ersten beiden Generationen des AlphaGo Zero der dritten Generation.

Die Schachfähigkeiten von AlphaGo können von Generation zu Generation zunehmen. Dahinter steckt tatsächlich ein offensichtlicher Trend in der KI-Technologie, nämlich der zunehmende Anteil des verstärkenden Lernens.

In den letzten Jahren hat das Verstärkungslernen eine weitere „Evolution“ durchlaufen. Die Menschen nennen das „entwickelte“ Verstärkungslernen tiefes Verstärkungslernen.

Aber die Stichprobeneffizienz von Deep-Reinforcement-Learning-Agenten ist gering, was ihre Anwendung bei praktischen Problemen stark einschränkt.

In letzter Zeit wurden viele modellbasierte Methoden entwickelt, um dieses Problem zu lösen, und das Erlernen der Vorstellungskraft des Weltmodells ist eine der bekanntesten Methoden.

Obwohl die nahezu unbegrenzte Interaktion mit einer simulierten Umgebung verlockend klingt, muss das Weltmodell über lange Zeiträume hinweg genau bleiben.

Inspiriert durch den Erfolg von Transformer bei Sequenzmodellierungsaufgaben stellten Vincent Micheli, Eloy Alonso und François Fleure von der Cornell University IRIS vor, einen dateneffizienten Agenten, der in einem Weltmodell lernt, das aus diskreten Autoencodern und autoregressiven Transformern besteht.

Auf dem Atari 100k-Benchmark erreichte IRIS im Äquivalent von nur zwei Stunden Spielzeit einen durchschnittlichen menschennormalisierten Wert von 1,046 und übertraf Menschen in 10 von 26 Spielen.

Zuvor sagte LeCun einmal, dass verstärkendes Lernen in eine Sackgasse führen wird.

Kann das Transformers+World-Modell tiefes Verstärkungslernen ersparen?

Jetzt scheinen Vincent Micheli, Eloy Alonso, Francois Fleure und andere an der Cornell University Weltmodelle mit Reinforcement Learning (genauer gesagt Deep Reinforcement Learning) in einem zu kombinieren und die Brücke zu verbinden Die beiden sind Transformers.

Was ist der Unterschied zwischen Deep Reinforcement Learning?

Wenn es um die Technologie der künstlichen Intelligenz geht, denken viele Menschen an Deep Learning.

Obwohl Deep Learning im Bereich der KI immer noch aktiv ist, hat es viele Probleme aufgedeckt.

Die derzeit am häufigsten verwendete Methode des Deep Learning ist überwachtes Lernen. Überwachtes Lernen kann als „Lernen mit Referenzantworten“ verstanden werden. Eines seiner Merkmale besteht darin, dass die Daten gekennzeichnet werden müssen, bevor sie für das Training verwendet werden können. Heutzutage handelt es sich jedoch bei einer großen Datenmenge um unbeschriftete Daten, und die Kosten für die Kennzeichnung sind sehr hoch.

So sehr, dass einige Leute als Reaktion auf diese Situation scherzten: „Es gibt genauso viel Intelligenz wie künstliche Intelligenz.“

Viele Forscher, darunter auch viele Experten, denken darüber nach, ob Deep Learning „falsch“ ist.

Also begann das verstärkte Lernen zuzunehmen.

Verstärkendes Lernen unterscheidet sich vom überwachten Lernen und dem unbeaufsichtigten Lernen. Es verwendet einen Agenten, um kontinuierlich zu versuchen und die KI entsprechend den Ergebnissen von Versuch und Irrtum zu belohnen und zu bestrafen. Dies ist die Methode von DeepMind zur Erstellung verschiedener Schach- und Karten-KI sowie Spiel-KI. Befürworter dieses Weges glauben, dass, solange die Belohnungsanreize richtig gesetzt sind, durch verstärkendes Lernen letztendlich ein echter AGI entstehen wird.

Aber Reinforcement Learning birgt auch Probleme. In LeCuns Worten: „Reinforcement Learning erfordert eine riesige Datenmenge, um das Modell für die Ausführung der einfachsten Aufgaben zu trainieren.“

Also wurden Reinforcement Learning und Deep Learning zu Deep Reinforcement Learning kombiniert.

Deep Reinforcement Learning, Reinforcement Learning ist das Skelett und Deep Learning ist die Seele. Was bedeutet das? Der Hauptbetriebsmechanismus des Deep Reinforcement Learning ist im Wesentlichen derselbe wie der Reinforcement Learning, mit der Ausnahme, dass ein tiefes neuronales Netzwerk verwendet wird, um diesen Prozess abzuschließen.

Darüber hinaus implementieren einige Deep Reinforcement Learning-Algorithmen einfach einen neuen Satz von Deep Reinforcement Learning-Algorithmen, indem sie Deep Reinforcement Learning-Algorithmen zu vorhandenen Deep Reinforcement Learning-Algorithmen hinzufügen. Der sehr berühmte Deep Reinforcement Learning-Algorithmus DQN ist ein typisches Beispiel.

Was ist das Magische an Transformers?

Transformers erschienen erstmals im Jahr 2017 und wurden in Googles Artikel „Attention is All You Need“ vorgeschlagen.

Vor dem Aufkommen von Transformer blieb der Fortschritt der künstlichen Intelligenz bei Sprachaufgaben hinter der Entwicklung anderer Bereiche zurück. „Die Verarbeitung natürlicher Sprache war ein Nachzügler dieser Deep-Learning-Revolution, die im letzten Jahrzehnt stattgefunden hat“, sagt Anna Rumshisky, Informatikerin an der University of Massachusetts Lowell. „In gewisser Weise hinkte NLP hinter Computer Vision Transformer hinterher Das ändert sich.

In den letzten Jahren haben sich Transformer-Modelle für maschinelles Lernen zu einem der wichtigsten Highlights der Weiterentwicklung des Deep Learning und der Deep Neural Network-Technologie entwickelt. Es wird hauptsächlich für fortgeschrittene Anwendungen in der Verarbeitung natürlicher Sprache verwendet. Google nutzt es, um seine Suchmaschinenergebnisse zu verbessern.

Transformer hat sich schnell zu einem führenden Anbieter von Anwendungen wie der Worterkennung entwickelt, die sich auf die Analyse und Vorhersage von Text konzentrieren. Es löste eine Welle von Tools wie GPT-3 von OpenAI aus, die auf Hunderten Milliarden Wörtern trainiert werden können und kohärenten neuen Text generieren.

Derzeit entwickelt sich die Transformer-Architektur weiter und wird in viele verschiedene Varianten erweitert, die von Sprachaufgaben bis hin zu anderen Domänen reichen. Transformer wurde beispielsweise für die Vorhersage von Zeitreihen verwendet und ist auch die Schlüsselinnovation hinter DeepMinds Proteinstruktur-Vorhersagemodell AlphaFold.

Transformer sind seit Kurzem auch im Bereich der Computer Vision angekommen und ersetzen langsam Convolutional Neural Networks (CNN) bei vielen komplexen Aufgaben.

World Model und Transformers bündeln ihre Kräfte. Was denken andere über die Forschungsergebnisse der Cornell University? Einige ausländische Internetnutzer kommentierten: „Bitte beachten Sie, dass diese zwei Stunden die Dauer der Aufnahmen aus der Umgebung sind, die auf der GPU ausgeführt werden.“ Woche."

Manche Leute fragen sich auch: Dieses System lernt also auf einem besonders genauen zugrunde liegenden Weltmodell? Erfordert das Modell keine Vorschulung?

Darüber hinaus sind einige Leute der Meinung, dass die Ergebnisse von Vincent Micheli und anderen von der Cornell University keine bahnbrechenden Durchbrüche sind: „Es scheint, dass sie nur die Weltmodell-, Vqvae- und Schauspielerkritiker geschult haben, die alle aus diesen zwei Stunden stammen.“ Erfahrung (und etwa 600 Epochen) des Wiedergabepuffers".

Referenz: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/​

Das obige ist der detaillierte Inhalt vonKann das Transformers+World-Modell tiefes Verstärkungslernen ersparen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!