


Kann das Transformers+World-Modell tiefes Verstärkungslernen ersparen?
Viele Menschen wissen, dass AlphaGo, das Li Sedol, Ke Jie und andere internationale Top-Schachspieler besiegte, insgesamt drei Iterationen hatte, nämlich das AlphaGo Lee der ersten Generation, das Li Sedol besiegte, und das AlphaGo Master der zweiten Generation, das Ke besiegte Jie und der AlphaGo-Meister der zweiten Generation, der Li Sedol besiegte. Schlagen Sie die ersten beiden Generationen des AlphaGo Zero der dritten Generation.
Die Schachfähigkeiten von AlphaGo können von Generation zu Generation zunehmen. Dahinter steckt tatsächlich ein offensichtlicher Trend in der KI-Technologie, nämlich der zunehmende Anteil des verstärkenden Lernens.
In den letzten Jahren hat das Verstärkungslernen eine weitere „Evolution“ durchlaufen. Die Menschen nennen das „entwickelte“ Verstärkungslernen tiefes Verstärkungslernen.
Aber die Stichprobeneffizienz von Deep-Reinforcement-Learning-Agenten ist gering, was ihre Anwendung bei praktischen Problemen stark einschränkt.
In letzter Zeit wurden viele modellbasierte Methoden entwickelt, um dieses Problem zu lösen, und das Erlernen der Vorstellungskraft des Weltmodells ist eine der bekanntesten Methoden.
Obwohl die nahezu unbegrenzte Interaktion mit einer simulierten Umgebung verlockend klingt, muss das Weltmodell über lange Zeiträume hinweg genau bleiben.
Inspiriert durch den Erfolg von Transformer bei Sequenzmodellierungsaufgaben stellten Vincent Micheli, Eloy Alonso und François Fleure von der Cornell University IRIS vor, einen dateneffizienten Agenten, der in einem Weltmodell lernt, das aus diskreten Autoencodern und autoregressiven Transformern besteht.
Auf dem Atari 100k-Benchmark erreichte IRIS im Äquivalent von nur zwei Stunden Spielzeit einen durchschnittlichen menschennormalisierten Wert von 1,046 und übertraf Menschen in 10 von 26 Spielen.
Zuvor sagte LeCun einmal, dass verstärkendes Lernen in eine Sackgasse führen wird.
Jetzt scheinen Vincent Micheli, Eloy Alonso, Francois Fleure und andere an der Cornell University Weltmodelle mit Reinforcement Learning (genauer gesagt Deep Reinforcement Learning) in einem zu kombinieren und die Brücke zu verbinden Die beiden sind Transformers.
Was ist der Unterschied zwischen Deep Reinforcement Learning?
Wenn es um die Technologie der künstlichen Intelligenz geht, denken viele Menschen an Deep Learning.
Obwohl Deep Learning im Bereich der KI immer noch aktiv ist, hat es viele Probleme aufgedeckt.
Die derzeit am häufigsten verwendete Methode des Deep Learning ist überwachtes Lernen. Überwachtes Lernen kann als „Lernen mit Referenzantworten“ verstanden werden. Eines seiner Merkmale besteht darin, dass die Daten gekennzeichnet werden müssen, bevor sie für das Training verwendet werden können. Heutzutage handelt es sich jedoch bei einer großen Datenmenge um unbeschriftete Daten, und die Kosten für die Kennzeichnung sind sehr hoch.
So sehr, dass einige Leute als Reaktion auf diese Situation scherzten: „Es gibt genauso viel Intelligenz wie künstliche Intelligenz.“
Viele Forscher, darunter auch viele Experten, denken darüber nach, ob Deep Learning „falsch“ ist.
Also begann das verstärkte Lernen zuzunehmen.
Verstärkendes Lernen unterscheidet sich vom überwachten Lernen und dem unbeaufsichtigten Lernen. Es verwendet einen Agenten, um kontinuierlich zu versuchen und die KI entsprechend den Ergebnissen von Versuch und Irrtum zu belohnen und zu bestrafen. Dies ist die Methode von DeepMind zur Erstellung verschiedener Schach- und Karten-KI sowie Spiel-KI. Befürworter dieses Weges glauben, dass, solange die Belohnungsanreize richtig gesetzt sind, durch verstärkendes Lernen letztendlich ein echter AGI entstehen wird.
Aber Reinforcement Learning birgt auch Probleme. In LeCuns Worten: „Reinforcement Learning erfordert eine riesige Datenmenge, um das Modell für die Ausführung der einfachsten Aufgaben zu trainieren.“
Also wurden Reinforcement Learning und Deep Learning zu Deep Reinforcement Learning kombiniert.
Deep Reinforcement Learning, Reinforcement Learning ist das Skelett und Deep Learning ist die Seele. Was bedeutet das? Der Hauptbetriebsmechanismus des Deep Reinforcement Learning ist im Wesentlichen derselbe wie der Reinforcement Learning, mit der Ausnahme, dass ein tiefes neuronales Netzwerk verwendet wird, um diesen Prozess abzuschließen.
Darüber hinaus implementieren einige Deep Reinforcement Learning-Algorithmen einfach einen neuen Satz von Deep Reinforcement Learning-Algorithmen, indem sie Deep Reinforcement Learning-Algorithmen zu vorhandenen Deep Reinforcement Learning-Algorithmen hinzufügen. Der sehr berühmte Deep Reinforcement Learning-Algorithmus DQN ist ein typisches Beispiel.
Was ist das Magische an Transformers?
Transformers erschienen erstmals im Jahr 2017 und wurden in Googles Artikel „Attention is All You Need“ vorgeschlagen.
Vor dem Aufkommen von Transformer blieb der Fortschritt der künstlichen Intelligenz bei Sprachaufgaben hinter der Entwicklung anderer Bereiche zurück. „Die Verarbeitung natürlicher Sprache war ein Nachzügler dieser Deep-Learning-Revolution, die im letzten Jahrzehnt stattgefunden hat“, sagt Anna Rumshisky, Informatikerin an der University of Massachusetts Lowell. „In gewisser Weise hinkte NLP hinter Computer Vision Transformer hinterher Das ändert sich.
In den letzten Jahren haben sich Transformer-Modelle für maschinelles Lernen zu einem der wichtigsten Highlights der Weiterentwicklung des Deep Learning und der Deep Neural Network-Technologie entwickelt. Es wird hauptsächlich für fortgeschrittene Anwendungen in der Verarbeitung natürlicher Sprache verwendet. Google nutzt es, um seine Suchmaschinenergebnisse zu verbessern.
Transformer hat sich schnell zu einem führenden Anbieter von Anwendungen wie der Worterkennung entwickelt, die sich auf die Analyse und Vorhersage von Text konzentrieren. Es löste eine Welle von Tools wie GPT-3 von OpenAI aus, die auf Hunderten Milliarden Wörtern trainiert werden können und kohärenten neuen Text generieren.
Derzeit entwickelt sich die Transformer-Architektur weiter und wird in viele verschiedene Varianten erweitert, die von Sprachaufgaben bis hin zu anderen Domänen reichen. Transformer wurde beispielsweise für die Vorhersage von Zeitreihen verwendet und ist auch die Schlüsselinnovation hinter DeepMinds Proteinstruktur-Vorhersagemodell AlphaFold.
Transformer sind seit Kurzem auch im Bereich der Computer Vision angekommen und ersetzen langsam Convolutional Neural Networks (CNN) bei vielen komplexen Aufgaben.
World Model und Transformers bündeln ihre Kräfte. Was denken andere über die Forschungsergebnisse der Cornell University? Einige ausländische Internetnutzer kommentierten: „Bitte beachten Sie, dass diese zwei Stunden die Dauer der Aufnahmen aus der Umgebung sind, die auf der GPU ausgeführt werden.“ Woche."
Manche Leute fragen sich auch: Dieses System lernt also auf einem besonders genauen zugrunde liegenden Weltmodell? Erfordert das Modell keine Vorschulung?
Darüber hinaus sind einige Leute der Meinung, dass die Ergebnisse von Vincent Micheli und anderen von der Cornell University keine bahnbrechenden Durchbrüche sind: „Es scheint, dass sie nur die Weltmodell-, Vqvae- und Schauspielerkritiker geschult haben, die alle aus diesen zwei Stunden stammen.“ Erfahrung (und etwa 600 Epochen) des Wiedergabepuffers".
Referenz: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
Das obige ist der detaillierte Inhalt vonKann das Transformers+World-Modell tiefes Verstärkungslernen ersparen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Viele Benutzer, die gerade mit der Kujiale-Software in Kontakt gekommen sind, sind nicht sehr vertraut mit der Art und Weise, wie Kujiale selbst modelliert. Der folgende Artikel stellt Ihnen die Schritte von Kujiales eigener Modellierung vor. Betreten Sie die Kujiale-Plattform. Klicken Sie in Kujiale, um die Design- und Dekorationsoberfläche aufzurufen. Klicken Sie in der Designoberfläche links auf die Branchenbibliothek und dann in der Branchenbibliothek auf die Hardware-Installationstools für das ganze Haus. Mit dem harten Dekorationswerkzeug für das ganze Haus können Modellierungsarbeiten durchgeführt werden.

Viele Menschen wissen, dass AlphaGo, das Li Sedol, Ke Jie und andere internationale Top-Schachspieler besiegte, insgesamt drei Iterationen hatte. Es handelte sich um den AlphaGo Lee der ersten Generation, der Li Sedol besiegte, und den AlphaGo Master der zweiten Generation, der Ke Jie besiegte und der AlphaGo Master der zweiten Generation, der die ersten beiden besiegte. Die dritte Generation von AlphaGo Zero. Der Grund, warum die Schachfähigkeiten von AlphaGo von Generation zu Generation zunehmen können, liegt tatsächlich an einem offensichtlichen Trend in der KI-Technologie, nämlich dem zunehmenden Anteil des verstärkenden Lernens. In den letzten Jahren hat das Verstärkungslernen eine weitere „Evolution“ durchlaufen. Die Menschen nennen das „entwickelte“ Verstärkungslernen tiefes Verstärkungslernen. Allerdings ist die Stichprobeneffizienz von Deep-Reinforcement-Learning-Agenten gering, was ihre Anwendung bei praktischen Problemen stark einschränkt. jüngste

Erzeugen Sie mit einem Klick eine spielbare Spielwelt. Es ist erst zwei Wochen her, seit es herausgekommen ist, und das Weltmodell von Google ist ebenfalls angekommen, und seine Fähigkeiten scheinen noch mächtiger zu sein: Die virtuelle Welt, die es generiert, ist „autonom und kontrollierbar“. Gerade hat Google ein neues Paradigma der generativen KI definiert – Generative Interactive Environments (Genie, Generative Interactive Environments). Genie ist ein 11 Milliarden Parameter umfassendes Weltmodell, das aus einer einzigen Bildaufforderung spielbare interaktive Umgebungen generieren kann. Wir können es mit Bildern anregen, die es noch nie zuvor gesehen hat, und dann mit der virtuellen Welt unserer eigenen Vorstellung interagieren. Ganz gleich, ob es sich um zusammengesetzte Bilder, Fotos oder sogar handgezeichnete Skizzen handelt, Genie kann daraus endlose spielbare Welten generieren. Ge

Mit der Popularität des Internets wird die Nachfrage nach Webanwendungen immer größer. In der Vergangenheit haben wir möglicherweise Sprachen wie PHP, Java oder Python zum Erstellen von Webanwendungen verwendet, aber mit dem kontinuierlichen Aufkommen neuer Technologien entscheiden wir uns jetzt für die Verwendung von Golang zum Erstellen von Webanwendungen. In Golang ist Iris ein sehr hervorragendes Web-Framework. Es verfügt über die gleichen Funktionen und die gleiche Benutzerfreundlichkeit wie andere gängige Web-Frameworks. In diesem Artikel werden wir die Grundlagen der Erstellung von Webanwendungen mit dem Iris-Framework untersuchen.

Die offizielle Website der Go-Sprachmodellierungsbibliothek umfasst: 1. GORM, eine einfache, aber leistungsstarke ORM-Bibliothek, 2. XORM mit hoher Leistung und Benutzerfreundlichkeit, 3. beego ORM, das eine einfache API für den Datenbankzugriff und die Datenverarbeitung bietet Mapping; 4. sqlx, eine leichtgewichtige Datenbank-Tool-Bibliothek; 5. gorp, die eine einfache API für die Datenpersistenz und -abfrage bereitstellt.

Mit der rasanten Entwicklung der künstlichen Intelligenz und der Technologie des maschinellen Lernens ist Deep Learning zu einer der beliebtesten Technologien im Bereich der künstlichen Intelligenz geworden. Als leicht zu erlernende und benutzerfreundliche Programmiersprache ist Python für viele Deep-Learning-Praktiker zur Sprache der Wahl geworden. In diesem Artikel erfahren Sie, wie Sie Deep Modeling in Python verwenden. 1. Installieren und konfigurieren Sie die Python-Umgebung. Zuerst müssen wir Python und zugehörige Deep-Learning-Bibliotheken installieren. Derzeit sind TensorFlow und PyT die am häufigsten verwendeten Deep-Learning-Bibliotheken in Python

Numpy ist eine der am häufigsten verwendeten Mathematikbibliotheken in Python und integriert viele der besten mathematischen Funktionen und Operationen. Numpy wird häufig verwendet, unter anderem in den Bereichen Statistik, lineare Algebra, Bildverarbeitung, maschinelles Lernen, neuronale Netze. In Sachen Datenanalyse und Modellierung ist Numpy eines der unverzichtbaren Tools. In diesem Artikel werden häufig verwendete mathematische Funktionen in Numpy sowie Beispielcodes für die Verwendung dieser Funktionen zur Implementierung von Datenanalyse und -modellierung vorgestellt. 1. Erstellen Sie ein Array. Verwenden Sie die Funktion array() in Numpy, um eine Zahl zu erstellen.

Mit dem Aufkommen der generativen KI-Technologie erforschen viele neue Kräfte im Automobilbau neue Methoden für visuelle Sprachmodelle und Weltmodelle. Das durchgängige intelligente Fahren neuer Technologien scheint zu einer gemeinsamen Forschungsrichtung geworden zu sein. Letzten Monat veröffentlichte Li Auto die End-to-End-Architektur für autonomes Fahren der dritten Generation + visuelles VLM-Sprachmodell + Weltmodell. Diese Architektur wurde Tausenden von Menschen für interne Tests zur Verfügung gestellt. Sie verkörpert intelligentes Fahrverhalten, verbessert die Informationsverarbeitungseffizienz der KI und verbessert die Fähigkeit, komplexe Straßenbedingungen zu verstehen und darauf zu reagieren. Li Xiang sagte einmal öffentlich, dass VLM (Visual Language Model), ein visuelles Sprachmodell, angesichts seltener Fahrumgebungen, die für die meisten Algorithmen schwer zu identifizieren und zu verarbeiten sind, die Fähigkeiten des autonomen Fahrens theoretisch systematisch verbessern kann
