Groß angelegte Sprachmodelle (LLM) haben durch kontextbezogenes Lernen eine hervorragende Leistung bei einer Vielzahl komplexer Aufgaben gezeigt, ohne dass eine Schulung oder Feinabstimmung für bestimmte Aufgaben erforderlich ist. Die jüngsten Fortschritte bei Eingabeaufforderungen und Dekodierung ermöglichen es LLM auch, komplexe Argumente zu lösen Mission wurde Wirklichkeit.
Allerdings kann LLM veraltetes, unvollständiges oder falsches Wissen speichern. Für den erfolgreichen Einsatz von LLM in realen Anwendungen sind externe Wissensquellen (wie Wikipedia) von entscheidender Bedeutung. Frühere Versuche wurden unternommen, Wissen auf kleinere Sprachmodelle (LMs) wie T5, BERT und RoBERTa anzuwenden, aber diese Methoden erfordern oft zusätzliche Schulung oder Feinabstimmung, sind kostspielig und für LLMs völlig unpraktisch.
Auf dieser Grundlage schlugen Forscher der University of Rochester, des Tencent AI Lab und der University of Pennsylvania gemeinsam eine Nachbearbeitungsmethode namens Rethinking with Retrieval (RR) vor, um externes Wissen im LLM zu nutzen.
Papieradresse: https://arxiv.org/pdf/2301.00303v1.pdf
Die Idee dieser Forschung besteht darin, zunächst die Gedankenkette zu nutzen (CoT) Die Aufforderungsmethode generiert eine Reihe verschiedener Argumentationspfade, ähnlich der Methode von Wang et al. (2022). Anschließend nutzt die Studie jeden Inferenzschritt in diesen Pfaden, um relevantes externes Wissen abzurufen, sodass die RR-Methode plausiblere Erklärungen und genauere Vorhersagen liefern kann.
Diese Studie verwendet GPT-3 175B und mehrere gängige externe Wissensquellen (Wikipedia, Wikidata, WordNet und Conceptnet), um die Wirksamkeit der RR-Methode bei drei komplexen Argumentationsaufgaben zu bewerten, darunter vernünftiges Denken, zeitbasiertes Denken und tabellarisches Denken. Experimentelle Ergebnisse zeigen, dass RR andere Methoden bei diesen drei Aufgaben ohne zusätzliches Training oder Feinabstimmung durchweg übertrifft, was darauf hindeutet, dass die RR-Methode große Vorteile bei der Nutzung externen Wissens zur Verbesserung der LLM-Leistung bietet.
Obwohl LLMs in der Praxis die zur Beantwortung der Frage erforderlichen Elemente genau erfassen, erzeugen diese Modelle manchmal falsche Ergebnisse. Dieses Phänomen zeigt, dass es einige Probleme bei der Art und Weise gibt, wie LLM Wissen speichert und abruft, darunter:
RR-Methode ist wie folgt: Bei einer gegebenen Eingabefrage Q verwendet die RR-Methode zunächst eine Kette von Eingabeaufforderungen, um einen Satz verschiedener Argumentationspfade R_1, R_2, ... zu generieren. , R_N, wobei jeder Inferenzpfad R_i aus einer Erklärung E_i und der folgenden Vorhersage P_i besteht. Dann wird relevantes Wissen K_1,...,K_M aus der entsprechenden Wissensdatenbank KB abgerufen, um die Erklärung in jedem Inferenzpfad zu unterstützen und die konsistenteste Vorhersagen dieses Wissens .
Chain of Thought (CoT)-Aufforderung. CoT-Prompting unterscheidet sich erheblich vom Standard-Prompting und umfasst Schritt-für-Schritt-Darstellungen von Argumentationsbeispielen im Prompt, um eine Reihe kurzer Sätze zu generieren, die den Argumentationsprozess erfassen. Bei der Eingabefrage: „Hat Aristoteles einen Laptop benutzt? Der erste Laptop wurde 1980 erfunden. Aristoteles benutzte also keinen Laptop. Die Antwort lautet also nein.
Sampling verschiedener Inferenzpfade. Ähnlich wie bei Wang et al. (2022) wurde in dieser Studie ein anderer Satz von Inferenzpfaden R_1, R_2, ..., R_N untersucht, anstatt nur den optimalen proportionalen Pfad (Gieriger Pfad) zu berücksichtigen. . Bezüglich der Frage „Hat Aristoteles einen Laptop benutzt?“ ist der mögliche Argumentationspfad wie folgt:
(R_1) Aristoteles starb im Jahr 2000. Der erste Laptop wurde 1980 erfunden. Also benutzte Aristoteles einen Laptop. Die Antwort auf diese Frage lautet also Ja.
(R_2) Aristoteles starb 322 v. Chr. Der erste Laptop wurde im Jahr 2000 erfunden. Daher benutzte Aristoteles keinen Laptop. Die Antwort lautet also nein.
Wissensabruf. Zur Bearbeitung unterschiedlicher Aufgaben können unterschiedliche Wissensdatenbanken genutzt werden. Um beispielsweise die Frage „Hat Aristoteles einen Laptop benutzt?“ zu beantworten, können wir Wikipedia als externe Wissensdatenbank verwenden. Informationsabruftechniken können verwendet werden, um relevantes Wissen K_1,...K_M aus Wikipedia basierend auf zerlegten Argumentationsschritten abzurufen. Idealerweise würden wir zu dieser Frage die folgenden zwei Passagen aus Wikipedia erhalten:
(K_1) Aristoteles (384 v. Chr. bis 322 Jahre v. Chr.) war ein griechischer Philosoph und gelehrter Meister in der klassischen Zeit des antiken Griechenland
(K_2) Der erste Laptop, der Epson HX-20, wurde 1980 erfunden...# 🎜🎜##🎜🎜 #
Treue Argumentation. Wir können die Konfidenz jedes Inferenzpfads R_i mithilfe der Funktion f_KB(R_i) schätzen, die auf dem relevanten Wissen K_1, ..., K_M basiert, das aus der Wissensbasis KB abgerufen wird. Die endgültige Vorhersage kann durch Anwendung des folgenden Inferenzprozesses erhalten werden:In diesem Abschnitt stellt die Studie die Bewertung von RR für drei komplexe Argumentationsaufgaben vor: vernünftiges Denken, zeitliches Denken und tabellarisches Denken.
Versuchsaufbau. In allen Experimenten verwendet diese Studie GPT-3 text-davinci-002, sofern nicht anders angegeben. Die maximale Anzahl der während des Abschlusses des Experiments generierten Token wurde auf 256, Null-Schuss-, Wenig-Schuss- und Gedankenkettenaufforderungen festgelegt, und der Temperaturparameter (Temperatur) wurde auf 0 festgelegt.
Diese Studie demonstriert die Methode mit CoT-Prompt auf der StrategyQA-Datensatzanalyse GPT-3. Nach sorgfältiger Prüfung der Ausgabe von GPT-3 stellte die Studie fest, dass RR für viele Probleme vernünftige Erklärungen und korrekte Vorhersagen liefern kann. Auf die Frage „Wird Albany, Georgia vor Albany, New York 100.000 Einwohner erreichen?“ wurde beispielsweise die folgende Ausgabe ausgegeben:
Insgesamt sind die ausgegebenen Antworten auf Fragen von hoher Qualität. Die Studie stellte jedoch auch fest, dass GPT-3 gelegentlich falsche sachliche Belege für seine Interpretationen liefert oder falsche Begründungen für seine Vorhersagen liefert, obwohl es im Allgemeinen in der Lage ist, angemessene Standpunkte zu identifizieren. Falsche unterstützende Fakten. Wie in Tabelle 2 gezeigt, liefert GPT-3 eine falsche sachliche Unterstützung für Lil Jons Song mit den höchsten Charts in den Billboard-Charts und gibt an, dass der Song mit den höchsten Charts „Get Low“ ist, statt der richtigen Antwort „Ja“. Darüber hinaus argumentierte GPT-3 fälschlicherweise, dass der Gipfel des Fuji nicht höher als das Japanische Meer sein könne, anstatt dass die richtige Antwort darin bestand, dass dies der Fall sei.
Weitere technische Details finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonEs ist verboten, groß angelegte Sprachmodelle zufällig zu erstellen, und mit etwas externem Wissen ist die Argumentation sehr zuverlässig.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!