Heim > Technologie-Peripheriegeräte > KI > Wohin wird sich ChatGPT von hier aus entwickeln? LeCuns neue Arbeit: Umfassende Überprüfung des „erweiterten Sprachmodells' der nächsten Generation

Wohin wird sich ChatGPT von hier aus entwickeln? LeCuns neue Arbeit: Umfassende Überprüfung des „erweiterten Sprachmodells' der nächsten Generation

WBOY
Freigeben: 2023-04-11 23:58:01
nach vorne
1136 Leute haben es durchsucht

ChatGPT hat das Feuer des Sprachmodells entfacht, und NLP-Praktiker denken über zukünftige Forschungsrichtungen nach und fassen diese zusammen.

Wohin wird sich ChatGPT von hier aus entwickeln? LeCuns neue Arbeit: Umfassende Überprüfung des „erweiterten Sprachmodells der nächsten Generation

Der jüngste Turing-Award-Gewinner Yann LeCun beteiligte sich am Schreiben einer Rezension zu „Enhanced Language Models“, überprüfte die Arbeit der Kombination von Sprachmodellen mit Argumentationsfähigkeiten und der Fähigkeit, Werkzeuge zu verwenden, und kam zu dem Schluss, dass dies neu ist Die Forschungsrichtung hat das Potenzial, die Einschränkungen traditioneller Sprachmodelle, wie z. B. Interpretierbarkeits-, Konsistenz- und Skalierbarkeitsprobleme, zu lösen.

... B. Code-Interpreter, Taschenrechner usw.), kann LM diese Verbesserungen allein oder in Kombination durch Heuristiken oder durch Demonstrationslernen nutzen.

Wohin wird sich ChatGPT von hier aus entwickeln? LeCuns neue Arbeit: Umfassende Überprüfung des „erweiterten Sprachmodells der nächsten Generation

Während das erweiterte LM dem Standardziel zur Vorhersage fehlender Token folgt, kann es verschiedene externe Module verwenden, die möglicherweise nichtparametrisch sind, um die Kontextverarbeitungsfähigkeiten zu erweitern. Es ist nicht auf das reine Sprachmodellierungsparadigma beschränkt und kann als erweiterte Sprache bezeichnet werden . Modelle (ALMs, Augmented Language Models).

Fehlende Token-Vorhersageziele ermöglichen es ALM, zu lernen, zu argumentieren, Tools zu verwenden und sogar zu handeln (handeln), während es dennoch in der Lage ist, Standardaufgaben in natürlicher Sprache auszuführen, und sogar die meisten herkömmlichen LMs bei mehreren Benchmark-Datensätzen übertrifft.

Erweiterte Sprachmodelle

Groß angelegte Sprachmodelle (LLMs) haben enorme Fortschritte bei der Verarbeitung natürlicher Sprache vorangetrieben und sind nach und nach zum technischen Kern von Produkten geworden, die von Millionen von Benutzern verwendet werden, darunter der Codierungsassistent Copilot, die Google-Suchmaschine usw das kürzlich veröffentlichte ChatGPT.

Memorization kombiniert mit Compositionality-Fähigkeiten ermöglicht es LLM, verschiedene Aufgaben wie Sprachverständnis oder bedingte und bedingungslose Textgenerierung auf beispiellosem Leistungsniveau auszuführen und eröffnet so einen praktischen Weg zu einem breiteren Spektrum der Mensch-Computer-Interaktion.

Allerdings unterliegt die aktuelle Entwicklung von LLM noch vielen Einschränkungen, die den Einsatz in einem breiteren Spektrum von Anwendungsszenarien behindern.

LLMs liefern beispielsweise oft nicht sachliche, aber scheinbar vernünftige Vorhersagen, auch bekannt als Halluzinationen. Viele Fehler sind tatsächlich völlig vermeidbar, darunter Rechenprobleme und kleine Fehler in der Argumentationskette.

Darüber hinaus scheinen sich viele der bahnbrechenden Fähigkeiten von LLMs im Maßstab zu entwickeln, gemessen an der Anzahl der trainierbaren Parameter, und frühere Forscher haben gezeigt, dass LLMs, sobald ein Modell einen bestimmten Maßstab erreicht, in der Lage sind, einige GROSSE zu vollenden. Bankaufgaben durch Wenig-Schuss-Eingabeaufforderung.

Obwohl es in letzter Zeit Bemühungen gab, einige kleinere LMs zu trainieren und gleichzeitig einige der Fähigkeiten großer Modelle beizubehalten, sind der Umfang und die Datenanforderungen aktueller LLMs für Training und Wartung unpraktisch: Große Modelle. Kontinuierliches Lernen bleibt eine offene Forschungsfrage.

Metaforscher glauben, dass diese Probleme auf einen grundlegenden Fehler von LLMs zurückzuführen sind: Der Trainingsprozess besteht darin, ein Parametermodell und einen begrenzten Kontext (normalerweise n Wörter davor und danach) anzugeben und dann eine statistische Sprachmodellierung durchzuführen.

Obwohl die Kontextgröße n in den letzten Jahren aufgrund der Entwicklung von Software und Hardware zugenommen hat, verwenden die meisten Modelle immer noch relativ kleine Kontextgrößen, sodass die enorme Größe des Modells eine Notwendigkeit ist, um nicht angezeigtes Wissen zu speichern Im Kontext sind Bedingungen auch für die Ausführung nachgelagerter Aufgaben von entscheidender Bedeutung.

Daher besteht ein wachsender Forschungstrend darin, diese Probleme auf eine Weise zu lösen, die leicht vom oben erwähnten reinen statistischen Sprachmodellierungsparadigma abweicht.

Zum Beispiel gibt es eine Arbeit, um das Problem der begrenzten Kontextgröße von LLM zu umgehen, indem die Berechnung der Relevanz aus „aus relevanten externen Dateien extrahierten Informationen“ hinzugefügt wird. Indem wir LMs mit einem Abrufmodul ausstatten, um solche Dokumente in einem bestimmten Kontext aus der Datenbank abzurufen, können wir einige der Fähigkeiten größerer LMs erreichen und gleichzeitig weniger Parameter haben.

Es ist wichtig zu beachten, dass das resultierende Modell nun nicht parametrisch ist, da es externe Datenquellen abfragen kann. Allgemeiner gesagt kann LM seinen Kontext auch durch Inferenzstrategien verbessern, um vor der Generierung von Antworten einen relevanteren Kontext zu generieren und so die Leistung durch mehr Rechenaufwand zu verbessern.

Eine andere Strategie besteht darin, dem LM die Nutzung externer Tools zu ermöglichen, um den aktuellen Kontext mit wichtigen fehlenden Informationen zu ergänzen, die nicht in den Gewichtungen des LM enthalten sind. Obwohl die meisten dieser Arbeiten darauf abzielen, die oben genannten Mängel von LM zu mildern, liegt die Annahme nahe, dass eine systematischere Verbesserung von LM durch Argumentation und Werkzeuge zu deutlich leistungsfähigeren Agenten führen kann.

Forscher bezeichnen diese Modelle gemeinsam als Augmented Language Models (ALMs).

Da sich dieser Trend beschleunigt, wird es schwierig, den Überblick und das Verständnis der zahlreichen Modelle zu behalten, was eine Klassifizierung der Arbeit von ALMs und eine Definition der teilweise für unterschiedliche Zwecke verwendeten Fachbegriffe erfordert.

Reasoning

Im Kontext von ALM ist Reasoning die Zerlegung einer potenziell komplexen Aufgabe in einfachere Teilaufgaben, die das LM einfacher selbst oder mithilfe von Tools lösen kann.

Es gibt derzeit verschiedene Möglichkeiten, Teilaufgaben zu zerlegen, beispielsweise rekursiv oder iterativ. In gewisser Weise ähnelt die Argumentation dem Plan, der in LeCuns Papier „Routes to Autonomous Machine Intelligence“ aus dem Jahr 2022 definiert ist.

Wohin wird sich ChatGPT von hier aus entwickeln? LeCuns neue Arbeit: Umfassende Überprüfung des „erweiterten Sprachmodells der nächsten Generation

Link zum Papier: https://openreview.net/pdf?id=BZ5a1r-kVsf

In dieser Umfrage bezieht sich Argumentation auf verschiedene Methoden zur Verbesserung der Argumentationsfähigkeit in LM-Strategien , wie zum Beispiel die Verwendung einer kleinen Anzahl von Beispielen für eine schrittweise Argumentation. Allerdings ist noch nicht vollständig geklärt, ob der LM tatsächlich schlussfolgert oder lediglich einen größeren Kontext generiert, der die Wahrscheinlichkeit erhöht, fehlende Token korrekt vorherzusagen.

Angesichts des aktuellen Stands der Technik mag Argumentation ein überstrapazierter Begriff sein, aber der Begriff wird in der Community bereits häufig verwendet. Im Kontext von ALM besteht eine pragmatischere Definition von Inferenz darin, dem Modell mehr Rechenschritte zu geben, bevor es zur Antwort auf die Eingabeaufforderung gelangt.

Tool Tool

Für ALM ist ein Tool ein externes Modul, das normalerweise mithilfe einer Regel oder eines speziellen Tokens aufgerufen wird und dessen Ausgabe im Kontext von ALM enthalten ist.

Tools können zum Sammeln externer Informationen verwendet werden oder einen Einfluss auf die virtuelle oder physische Welt haben (im Allgemeinen von ALM erfasst): Beispielsweise kann ein Datei-Retriever als Tool zum Abrufen externer Informationen oder ein Roboter verwendet werden Der Arm kann zur Wahrnehmung äußerer Einflüsse genutzt werden.

Tools können zur Trainingszeit oder zur Inferenzzeit aufgerufen werden. Generell muss das Modell lernen, mit dem Tool zu interagieren, einschließlich des Lernens, seine API aufzurufen ALM Rufen Sie beispielsweise ein Tool auf, das Auswirkungen auf die virtuelle oder physische Welt hat, und beobachten Sie seine Ergebnisse. Dabei wird es typischerweise in den aktuellen Kontext von ALM integriert.

Einige der in dieser Umfrage vorgestellten Arbeiten befassen sich mit der Suche im Internet oder der Manipulation von Roboterarmen durch LMs. In einem leichten Terminologiemissbrauch wird der Aufruf eines Tools durch ALM manchmal als eine Aktion dargestellt, auch wenn diese keine Auswirkungen auf die Außenwelt hat.

Warum gleichzeitig über Argumentation und Tools diskutieren?

Die Kombination von Argumentation und Werkzeugen in LM soll es ermöglichen, ein breites Spektrum komplexer Aufgaben ohne Heuristiken, d. h. mit besseren Generalisierungsfähigkeiten, zu lösen.

In der Regel erleichtert das logische Denken LM, ein gegebenes Problem in potenziell einfachere Teilaufgaben zu zerlegen, während Tools dabei helfen, jeden Schritt korrekt abzuschließen, beispielsweise beim Erhalten von Ergebnissen aus mathematischen Operationen.

Mit anderen Worten: Argumentation ist für LM eine Möglichkeit, verschiedene Werkzeuge zu kombinieren, um komplexe Aufgaben zu lösen, während Werkzeuge eine Möglichkeit sind, Argumentationsfehler zu vermeiden und effizient zu zerlegen.

Beide sollten voneinander profitieren, und Inferenz und Werkzeuge können in dasselbe Modul eingefügt werden, da beide funktionieren, indem sie den Kontext von LM verbessern, um fehlende Token besser vorherzusagen, wenn auch auf unterschiedliche Weise.

Warum gleichzeitig über Tools und Maßnahmen diskutieren?

Tools, die zusätzliche Informationen sammeln und Auswirkungen auf die virtuelle oder physische Welt haben, können von LM auf die gleiche Weise aufgerufen werden. Beispielsweise scheint es kaum einen Unterschied zu geben zwischen einem LM, der Python-Code ausgibt, um mathematische Operationen zu lösen, und einem LM, der Python-Code ausgibt, um einen Roboterarm zu manipulieren. Einige der in dieser Rezension besprochenen Arbeiten nutzen bereits LMs, die Auswirkungen auf die virtuelle oder physische Welt haben. Aus dieser Sicht können wir sagen, dass LMs das Potenzial haben, als autonome Agenten zu agieren und wichtige Fortschritte zu erwarten. Klassifizierungsmethode
Die Forscher zerlegten die in der Rezension vorgestellten Arbeiten in die oben genannten drei Dimensionen und stellten sie jeweils auch verwandte Arbeiten in anderen Dimensionen vor. Für den Leser sollte daran erinnert werden, dass viele dieser Techniken ursprünglich in anderen Kontexten als LM eingeführt wurden, und wenn nötig, schauen Sie sich nach Möglichkeit die Einleitungen der genannten Artikel und verwandter Arbeiten an. Obwohl sich die Überprüfung auf LLM konzentriert, übernehmen nicht alle damit verbundenen Arbeiten große Modelle, sondern zielen auf die Korrektheit von LM ab.

Das obige ist der detaillierte Inhalt vonWohin wird sich ChatGPT von hier aus entwickeln? LeCuns neue Arbeit: Umfassende Überprüfung des „erweiterten Sprachmodells' der nächsten Generation. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage