Inhaltsverzeichnis
Experiment
Heim Technologie-Peripheriegeräte KI Ist ChatGPT wirklich ein „Generalist'? Yang Di und andere haben es einem gründlichen Test unterzogen.

Ist ChatGPT wirklich ein „Generalist'? Yang Di und andere haben es einem gründlichen Test unterzogen.

Apr 13, 2023 pm 09:25 PM
chatgpt 考试

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Link zum Papier: ​https://arxiv.org/pdf/2302.06476.pdf​

Große Sprachmodelle (LLM) sind nachweislich in der Lage, verschiedene natürliche Sprachverarbeitung (NLP) zu lösen. Aufgaben, und für eine bestimmte nachgelagerte Aufgabe sind sie nicht auf Trainingsdaten angewiesen, und die Modellanpassung kann mithilfe geeigneter Eingabeaufforderungen erreicht werden. Diese Fähigkeit, auf Befehl neue Aufgaben auszuführen, kann als wichtiger Schritt hin zur allgemeinen künstlichen Intelligenz angesehen werden.

Obwohl das aktuelle LLM in einigen Fällen eine gute Leistung erzielt, ist es beim Zero-Shot-Lernen immer noch anfällig für verschiedene Fehler. Darüber hinaus kann das Format der Eingabeaufforderung erhebliche Auswirkungen haben. Durch das Hinzufügen von „Lasst uns Schritt für Schritt denken“ zur Eingabeaufforderung hinzugefügt werden, kann die Modellleistung deutlich verbessert​ werden. Diese Einschränkungen verdeutlichen, dass aktuelle LLMs keine wirklich universellen Sprachsysteme sind.

Kürzlich hat das von OpenAI veröffentlichte ChatGPT LLM große Aufmerksamkeit in der NLP-Community erregt. ChatGPT wurde durch das Training des Modells der GPT-3.5-Serie durch „Reinforcement Learning with Human Feedback (RLHF)“ erstellt. RLHF besteht im Wesentlichen aus drei Schritten: Verwendung von überwachtem Lernen zum Trainieren eines Sprachmodells; Sammeln von Vergleichsdaten und Trainieren eines Belohnungsmodells basierend auf menschlichen Präferenzen und Verwenden von Verstärkungslernen zum Optimieren des Sprachmodells für das Belohnungsmodell; Beim RLHF-Training wurde beobachtet, dass ChatGPT in verschiedenen Aspekten über beeindruckende Fähigkeiten verfügt, darunter die Generierung hochwertiger Antworten auf menschliche Eingaben, das Zurückweisen unangemessener Fragen und die Selbstkorrektur früherer Fehler auf der Grundlage nachfolgender Gespräche.

Obwohl ChatGPT starke Konversationsfähigkeiten aufweist, ist sich die NLP-Community immer noch unklar, ob ChatGPT im Vergleich zu bestehenden LLMs bessere Zero-Shot-Generalisierungsfähigkeiten erreicht. Um diese Forschungslücke zu schließen, untersuchten die Forscher systematisch die Zero-Shot-Lernfähigkeiten von ChatGPT, indem sie sie anhand einer großen Anzahl von NLP-Datensätzen auswerteten, die sieben repräsentative Aufgabenkategorien abdeckten. Zu diesen Aufgaben gehören Argumentation, Rückschluss auf natürliche Sprache, Beantwortung von Fragen (Leseverständnis), Dialog, Zusammenfassung, Erkennung benannter Entitäten und Stimmungsanalyse. Mithilfe umfangreicher Experimente wollten die Forscher die folgenden Fragen beantworten:

  • Ist ChatGPT ein Allzwecklöser für NLP-Aufgaben? Bei welchen Arten von Aufgaben schneidet ChatGPT gut ab?
  • Wenn ChatGPT bei einigen Aufgaben hinter anderen Modellen zurückbleibt, warum?

Um diese Fragen zu beantworten, verglichen die Autoren die Leistung von ChatGPT und dem hochmodernen GPT-3.5-Modell (text-davinci-003) basierend auf experimentellen Ergebnissen. Darüber hinaus berichten sie über Null-Schuss-, Feinabstimmungs- oder Wenig-Schuss-Feinabstimmungsergebnisse neuerer Arbeiten wie FLAN, T0 und PaLM.

Hauptschlussfolgerungen

Die Autoren erklärten, dass dies ihres Wissens nach das erste Mal sei, dass jemand die Zero-Shot-Fähigkeiten von ChatGPT bei verschiedenen NLP-Aufgaben untersucht habe, mit dem Ziel, einen vorläufigen Überblick über ChatGPT zu geben. . Ihre wichtigsten Erkenntnisse lauten wie folgt:

  • Während ChatGPT als generalistisches Modell eine gewisse Fähigkeit zeigt, mehrere Aufgaben auszuführen, schneidet es im Allgemeinen schlechter ab als Modelle, die für eine bestimmte Aufgabe fein abgestimmt sind (siehe Abbildung 1 und Abschnitt 4.3).
  • Die überlegene Denkfähigkeit von ChatGPT wurde experimentell in arithmetischen Denkaufgaben bestätigt (Abschnitt 4.2.1). Allerdings schneidet ChatGPT bei Aufgaben des gesunden Menschenverstands, des symbolischen und logischen Denkens im Allgemeinen schlechter ab als GPT-3.5, was sich beispielsweise daran zeigt, dass unsichere Antworten generiert werden (Abschnitt 4.2.2).
  • ChatGPT übertrifft GPT-3.5 bei Inferenzaufgaben in natürlicher Sprache (Abschnitt 4.2.3) und Fragen-Antwort-Aufgaben (Leseverständnis) (Abschnitt 4.2.4), die Argumentationsfähigkeiten fördern, wie z. B. die Bestimmung der Logik in Textpaarbeziehungen. Insbesondere ist ChatGPT besser darin, Text zu verarbeiten, der mit Fakten übereinstimmt (d. h. Implikationen besser klassifizieren als Nichtimplikationen).
  • ChatGPT übertrifft GPT-3.5 bei Konversationsaufgaben (Abschnitt 4.2.5).
  • In Bezug auf Zusammenfassungsaufgaben generiert ChatGPT längere Zusammenfassungen und schneidet schlechter ab als GPT-3.5. Allerdings beeinträchtigt die explizite Begrenzung der Digest-Länge in Zero-Shot-Anweisungen die Digest-Qualität, was zu einer verringerten Leistung führt (Abschnitt 4.2.6).
  • Während sie als generalistische Modelle vielversprechend sind, stehen sowohl ChatGPT als auch GPT-3.5 bei bestimmten Aufgaben vor Herausforderungen, wie etwa der Sequenzannotation (Abschnitt 4.2.7).
  • Die Stimmungsanalysefunktion von ChatGPT kommt GPT-3.5 nahe (Abschnitt 4.2.8).

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Methode

Wie oben erwähnt, vergleicht diese Studie hauptsächlich die Zero-Shot-Lernleistung von ChatGPT und GPT-3.5 (textdavinci-003) unter verschiedenen Aufgaben. Konkret nehmen sie Aufgabenanweisungen P und Testfragen X als Eingaben, stellen das Modell durch f dar und generieren dann den Zieltext Y = f (P, X), um die Testfragen zu lösen. Die Anweisungen und Eingabeformate für verschiedene Aufgaben sind in den Abbildungen 2 und 3 dargestellt.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Enthält Anweisungen und Eingabeformate für sechs Aufgaben (Stimmungsanalyse, Argumentation in natürlicher Sprache, Erkennung benannter Entitäten, Beantwortung von Fragen, Dialog und Zusammenfassung). Die Anweisungen sind in blauer Schrift.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Beschreibung der Inferenzaufgabe.

Wenn das Modell beispielsweise eine Stimmungsanalyseaufgabe ausführt, markiert die Aufgabenanweisung P die im Text enthaltene Stimmung als positiv oder negativ, und die Ausgabeantwort ist positiv oder negativ. Wenn das Modell die Anweisung P und den Eingabeinhalt

Im Gegensatz zu der oben erwähnten einstufigen Aufforderungsmethode verwendet diese Studie eine zweistufige Aufforderung (vorgeschlagen von Kojima et al.), um den Zero-Shot-CoT abzuschließen.

Die erste Stufe übernimmt „Lasst uns Schritt für Schritt denken“ und die Anweisung P_1 induziert das Grundprinzip R der Modellgenerierung.

Die zweite Stufe verwendet das im ersten Schritt generierte Grundprinzip R sowie die ursprüngliche Eingabe X und die Anweisung P_1 als neue Eingaben, um das Modell bei der Generierung der endgültigen Antwort zu unterstützen.

Danach wird eine neue Anweisung P_2 als Triggeranweisung zum Extrahieren der Antwort verwendet. Alle Aufgabenanweisungen wurden der Forschung von Brown, Ouyang, Zhang et al. entnommen oder von dieser inspiriert. Eine letzte Sache, die Sie beachten sollten, ist, dass Sie jedes Mal, wenn Sie eine neue Anfrage an ChatGPT stellen, die Konversation vorher löschen müssen, um die Auswirkungen des vorherigen Beispiels zu vermeiden.

Experiment

Das Experiment verwendet 20 verschiedene Datensätze zur Auswertung von ChatGPT und GPT-3.5 und deckt 7 Arten von Aufgaben ab.

Arithmetisches Denken

Die Genauigkeit von ChatGPT und GPT-3.5 ohne oder mit CoT für sechs Datensätze zum arithmetischen Denken ist in Tabelle 2 dargestellt. In Experimenten ohne CoT übertraf ChatGPT GPT-3.5 bei fünf der Datensätze und demonstrierte damit seine starken Fähigkeiten zum arithmetischen Denken.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Abbildung 4 zeigt den Fall, in dem GPT-3.5 die falsche Antwort gibt. Fragen Sie auf der linken Seite des Bildes: „Wendy spielt ein Videospiel und hat 43 Leben. Während des schwierigen Teils des Spiels hat sie 8 Leben verloren. Wenn sie im nächsten Level 39 weitere Leben bekommt, wie viele Leben wird sie haben?“ haben?“ ChatGPT gab die richtige Antwort. Allerdings hat GPT-3.5 eine falsche Antwort generiert. Es zeigt sich, dass ChatGPT bei der Verwendung von CoT deutlich besser abschneidet als GPT-3.5.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Gesunder Menschenverstand, symbolisches und logisches Denken

Tabelle 3 zeigt die Genauigkeit von ChatGPT im Vergleich zum beliebten LLM in Bezug auf Datensätze mit gesundem Menschenverstand, symbolischem und logischem Denken. Die folgenden Beobachtungen können gemacht werden: Erstens liefert die Verwendung von CoT möglicherweise nicht immer eine bessere Leistung bei Aufgaben zum gesunden Menschenverstand, die möglicherweise detaillierteres Hintergrundwissen erfordern. Zweitens schneidet ChatGPT im Gegensatz zum arithmetischen Denken in vielen Fällen schlechter ab als GPT-3.5, was darauf hindeutet, dass GPT-3.5 über stärkere entsprechende Fähigkeiten verfügt.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Um die Gründe zu analysieren, zeigt die Studie in Abbildung 5 mehrere Fehlerfälle von ChatGPT. Wir können beobachten, dass ChatGPT leicht undefinierte Antworten erzeugen kann, was zu einer schlechten Leistung führt.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Natürliches Denken in natürlicher Sprache

Tabelle 4 zeigt die Ergebnisse verschiedener Modelle für zwei Aufgaben zum Denken in natürlicher Sprache: RTE und CB. Wir können sehen, dass ChatGPT unter Zero-Shot-Einstellungen eine bessere Leistung erzielen kann als GPT-3.5, FLAN, T0 und PaLM. Dies beweist, dass ChatGPT bei NLP-Argumentationsaufgaben eine bessere Zero-Shot-Leistung aufweist.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Fragen und Antworten

Tabelle 6 zeigt die Genauigkeit verschiedener Modelle im BoolQ-Datensatz, und ChatGPT ist besser als GPT-3.5. Dies zeigt, dass ChatGPT Argumentationsaufgaben besser bewältigen kann.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Konversation

Tabelle 8 zeigt die Genauigkeit von ChatGPT und GPT-3.5 für den MuTual-Datensatz (Mehrrunden-Konversationsinferenz). Wie erwartet übertrifft ChatGPT GPT-3.5 deutlich.

Abbildung 6 ist ein konkretes Beispiel. Wir können sehen, dass ChatGPT für einen bestimmten Kontext effektiver argumentieren kann. Dies bestätigt einmal mehr die hervorragenden Denkfähigkeiten von ChatGPT.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Zusammenfassung erstellen

Tabelle 9 zeigt die ROUGE-Werte von ChatGPT und GPT-3.5 im SAMSum-Datensatz. Überraschenderweise ist ChatGPT in allen Metriken schlechter als GPT-3.5.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Erkennung benannter Entitäten

Tabelle 10 zeigt die Zero-Shot-Leistung von ChatGPT und GPT-3.5 auf CoNLL03. Wir können sehen, dass die Gesamtleistung von ChatGPT und GPT-3.5 sehr ähnlich ist.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Stimmungsanalyse

Tabelle 11 vergleicht die Genauigkeit verschiedener Modelle des Stimmungsanalysedatensatzes SST2. Überraschenderweise schneidet ChatGPT etwa 1 % schlechter ab als GPT-3.5.

Ist ChatGPT wirklich ein „Generalist? Yang Di und andere haben es einem gründlichen Test unterzogen.

Weitere Informationen finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonIst ChatGPT wirklich ein „Generalist'? Yang Di und andere haben es einem gründlichen Test unterzogen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Mit ChatGPT können kostenlose Benutzer jetzt Bilder mithilfe von DALL-E 3 mit einem Tageslimit generieren Mit ChatGPT können kostenlose Benutzer jetzt Bilder mithilfe von DALL-E 3 mit einem Tageslimit generieren Aug 09, 2024 pm 09:37 PM

DALL-E 3 wurde im September 2023 offiziell als deutlich verbessertes Modell gegenüber seinem Vorgänger eingeführt. Er gilt als einer der bisher besten KI-Bildgeneratoren und ist in der Lage, Bilder mit komplexen Details zu erstellen. Zum Start war es jedoch exklusiv

Die perfekte Kombination aus ChatGPT und Python: Erstellen eines intelligenten Kundenservice-Chatbots Die perfekte Kombination aus ChatGPT und Python: Erstellen eines intelligenten Kundenservice-Chatbots Oct 27, 2023 pm 06:00 PM

Die perfekte Kombination aus ChatGPT und Python: Erstellen eines intelligenten Kundenservice-Chatbots Einführung: Im heutigen Informationszeitalter sind intelligente Kundenservicesysteme zu einem wichtigen Kommunikationsinstrument zwischen Unternehmen und Kunden geworden. Um den Kundenservice zu verbessern, greifen viele Unternehmen auf Chatbots zurück, um Aufgaben wie Kundenberatung und Beantwortung von Fragen zu erledigen. In diesem Artikel stellen wir vor, wie Sie mithilfe des leistungsstarken ChatGPT-Modells und der Python-Sprache von OpenAI einen intelligenten Kundenservice-Chatbot erstellen und verbessern können

Kann Chatgpt in China verwendet werden? Kann Chatgpt in China verwendet werden? Mar 05, 2024 pm 03:05 PM

chatgpt kann in China verwendet werden, kann jedoch nicht registriert werden. Wenn Benutzer sich registrieren möchten, können sie zur Registrierung eine ausländische Mobiltelefonnummer verwenden. Beachten Sie, dass während des Registrierungsprozesses auf die Netzwerkumgebung umgestellt werden muss eine fremde IP.

So installieren Sie ChatGPT auf einem Mobiltelefon So installieren Sie ChatGPT auf einem Mobiltelefon Mar 05, 2024 pm 02:31 PM

Installationsschritte: 1. Laden Sie die ChatGTP-Software von der offiziellen ChatGTP-Website oder dem mobilen Store herunter. 2. Wählen Sie nach dem Öffnen in der Einstellungsoberfläche die Sprache aus. 3. Wählen Sie in der Spieloberfläche das Mensch-Maschine-Spiel aus 4. Geben Sie nach dem Start Befehle in das Chatfenster ein, um mit der Software zu interagieren.

So entwickeln Sie einen intelligenten Chatbot mit ChatGPT und Java So entwickeln Sie einen intelligenten Chatbot mit ChatGPT und Java Oct 28, 2023 am 08:54 AM

In diesem Artikel stellen wir vor, wie man intelligente Chatbots mit ChatGPT und Java entwickelt, und stellen einige spezifische Codebeispiele bereit. ChatGPT ist die neueste Version des von OpenAI entwickelten Generative Pre-Training Transformer, einer auf neuronalen Netzwerken basierenden Technologie für künstliche Intelligenz, die natürliche Sprache verstehen und menschenähnlichen Text generieren kann. Mit ChatGPT können wir ganz einfach adaptive Chats erstellen

So verwenden Sie ChatGPT und Python, um die Funktion zur Erkennung von Benutzerabsichten zu implementieren So verwenden Sie ChatGPT und Python, um die Funktion zur Erkennung von Benutzerabsichten zu implementieren Oct 27, 2023 am 09:04 AM

So verwenden Sie ChatGPT und Python, um die Funktion zur Erkennung von Benutzerabsichten zu implementieren. Einführung: Im heutigen digitalen Zeitalter ist die Technologie der künstlichen Intelligenz in verschiedenen Bereichen nach und nach zu einem unverzichtbaren Bestandteil geworden. Unter anderem ermöglicht die Entwicklung der Technologie zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), dass Maschinen menschliche Sprache verstehen und verarbeiten können. ChatGPT (Chat-GeneratingPretrainedTransformer) ist eine Art von

So erstellen Sie einen intelligenten Kundendienstroboter mit ChatGPT PHP So erstellen Sie einen intelligenten Kundendienstroboter mit ChatGPT PHP Oct 28, 2023 am 09:34 AM

So bauen Sie mit ChatGPTPHP einen intelligenten Kundendienstroboter. Einführung: Mit der Entwicklung der Technologie der künstlichen Intelligenz werden Roboter zunehmend im Bereich Kundendienst eingesetzt. Der Einsatz von ChatGPTPHP zum Aufbau eines intelligenten Kundendienstroboters kann Unternehmen dabei helfen, effizientere und personalisiertere Kundendienste anzubieten. In diesem Artikel wird erläutert, wie Sie mit ChatGPTPHP einen intelligenten Kundendienstroboter erstellen, und es werden spezifische Codebeispiele bereitgestellt. 1. Installieren Sie ChatGPTPHP und nutzen Sie ChatGPTPHP, um einen intelligenten Kundendienstroboter aufzubauen.

ChatGPT ist jetzt mit der Veröffentlichung einer speziellen App für macOS verfügbar ChatGPT ist jetzt mit der Veröffentlichung einer speziellen App für macOS verfügbar Jun 27, 2024 am 10:05 AM

Die ChatGPT-Mac-Anwendung von Open AI ist jetzt für alle verfügbar, während sie in den letzten Monaten nur denjenigen mit einem ChatGPT Plus-Abonnement vorbehalten war. Die App lässt sich wie jede andere native Mac-App installieren, sofern Sie über ein aktuelles Apple S verfügen

See all articles