Natural Language Inference (NLI) ist eine wichtige Aufgabe bei der Verarbeitung natürlicher Sprache. Ihr Ziel besteht darin, festzustellen, ob die Hypothese aus den Prämissen auf der Grundlage der gegebenen Prämissen und Annahmen abgeleitet werden kann. Da Mehrdeutigkeit jedoch ein wesentliches Merkmal natürlicher Sprache ist, ist der Umgang mit Mehrdeutigkeit auch ein wichtiger Teil des menschlichen Sprachverständnisses. Aufgrund der Vielfalt menschlicher Sprachausdrücke ist die Mehrdeutigkeitsverarbeitung zu einer der Schwierigkeiten bei der Lösung von Problemen beim logischen Denken in natürlicher Sprache geworden. Derzeit werden verschiedene Algorithmen zur Verarbeitung natürlicher Sprache in Szenarien wie Frage- und Antwortsystemen, Spracherkennung, intelligenter Übersetzung und Erzeugung natürlicher Sprache eingesetzt, aber selbst mit diesen Technologien ist die vollständige Auflösung von Mehrdeutigkeiten immer noch eine äußerst anspruchsvolle Aufgabe.
Bei NLI-Aufgaben stehen große Modelle zur Verarbeitung natürlicher Sprache wie GPT-4 vor Herausforderungen. Ein Problem besteht darin, dass die Mehrdeutigkeit der Sprache es Modellen erschwert, die wahre Bedeutung von Sätzen genau zu verstehen. Darüber hinaus können aufgrund der Flexibilität und Vielfalt der natürlichen Sprache verschiedene Beziehungen zwischen verschiedenen Texten bestehen, was den Datensatz in der NLI-Aufgabe äußerst komplex macht und sich auch auf die Universalität und Vielseitigkeit des Verarbeitungsmodells natürlicher Sprache auswirkt erhebliche Herausforderungen. Daher wird es beim Umgang mit mehrdeutiger Sprache von entscheidender Bedeutung sein, ob große Modelle in Zukunft erfolgreich sind, und große Modelle werden in Bereichen wie Konversationsschnittstellen und Schreibhilfen häufig eingesetzt. Der Umgang mit Mehrdeutigkeiten hilft dabei, sich an unterschiedliche Kontexte anzupassen, die Klarheit der Kommunikation zu verbessern und die Fähigkeit, irreführende oder irreführende Sprache zu erkennen.
Der Titel dieses Artikels über Mehrdeutigkeit in großen Modellen verwendet ein Wortspiel: „Wir haben Angst ...“, das nicht nur aktuelle Bedenken hinsichtlich der Schwierigkeit von Sprachmodellen bei der genauen Modellierung von Mehrdeutigkeit zum Ausdruck bringt, sondern auch Hinweise auf die beschriebene Sprache gibt in der Papierstruktur. Dieser Artikel zeigt auch, dass Menschen hart daran arbeiten, neue Benchmarks zu entwickeln, um leistungsstarke neue große Modelle wirklich herauszufordern, um natürliche Sprache genauer zu verstehen und zu generieren und neue Durchbrüche bei Modellen zu erzielen.
Papiertitel: Wir haben Angst, dass Sprachmodelle keine Mehrdeutigkeit modellieren
Papierlink: https://arxiv.org/abs/2304.14399
Code- und Datenadresse: https://github.com/alisawuffles/ambient
Der Autor dieses Artikels möchte untersuchen, ob das vorab trainierte große Modell Sätze mit mehreren möglichen Interpretationen erkennen und unterscheiden kann, und bewerten, wie das Modell verschiedene Lesarten und Interpretationen unterscheidet. Vorhandene Benchmark-Daten enthalten jedoch in der Regel keine mehrdeutigen Beispiele, sodass zur Untersuchung dieses Problems eigene Experimente erstellt werden müssen.
Das traditionelle NLI-Drei-Wege-Annotationsschema bezieht sich auf eine Annotationsmethode, die für NLI-Aufgaben (Natural Language Inference) verwendet wird und bei der der Annotator eine Bezeichnung aus drei Bezeichnungen auswählen muss, um die Beziehung zwischen dem Originaltext und der Hypothese darzustellen. Die drei Bezeichnungen lauten üblicherweise „Folge“, „Neutral“ und „Widerspruch“.
Die Autoren verwendeten das Format einer NLI-Aufgabe, um Experimente durchzuführen, und wählten einen funktionalen Ansatz, um Mehrdeutigkeit durch die Auswirkung von Mehrdeutigkeit in Prämissen oder Annahmen auf Implikationsbeziehungen zu charakterisieren. Die Autoren schlagen einen Benchmark namens AMBIENT (Ambiguity in Entailment) vor, der eine Vielzahl lexikalischer, syntaktischer und pragmatischer Mehrdeutigkeiten abdeckt und im weiteren Sinne Sätze abdeckt, die mehrere unterschiedliche Botschaften vermitteln können.
Wie in Abbildung 1 gezeigt, kann Mehrdeutigkeit ein unbewusstes Missverständnis sein (Abbildung 1 oben) oder absichtlich zur Irreführung des Publikums eingesetzt werden (Abbildung 1 unten). Wenn beispielsweise eine Katze verloren geht, nachdem sie das Haus verlassen hat, dann ist sie verloren in dem Sinne, dass sie den Weg nach Hause nicht finden kann (Implikationskante); wenn sie mehrere Tage lang nicht nach Hause zurückgekehrt ist, dann ist sie verloren in dem Sinne, dass andere den Weg nach Hause nicht finden können In gewisser Weise ist es auch verloren (neutrale Seite).
▲ Abbildung 1 Beispiele für Mehrdeutigkeit erklärt durch Cat Lost
Der Autor stellt 1645 Satzbeispiele bereit, die mehrere Arten von Mehrdeutigkeiten abdecken, einschließlich handschriftlicher Beispiele und aus der Neuzeit. Es gibt NLI Datensätze und Linguistiklehrbücher. Jedes Beispiel in AMBIENT enthält eine Reihe von Bezeichnungen, die verschiedenen möglichen Verständnissen entsprechen, sowie eine Umschreibung der Begriffsklärung für jedes Verständnis, wie in Tabelle 1 gezeigt. Tabelle 1 Paare von Prämissen und Annahmen in ausgewählten Beispielen Inspiriert durch frühere Arbeiten identifizieren sie automatisch Paare von Prämissen, die gemeinsame Argumentationsmuster aufweisen, und verbessern die Qualität des Korpus, indem sie die Erstellung neuer Beispiele mit denselben Mustern fördern.
Anmerkungen und Anmerkungen sind für die in den vorherigen Schritten erhaltenen Beispiele erforderlich. Dieser Prozess umfasste die Kommentierung durch zwei Experten, die Überprüfung und Zusammenfassung durch einen Experten und die Überprüfung durch einige Autoren. In der Zwischenzeit wählten 37 Linguistikstudenten für jedes Beispiel eine Reihe von Bezeichnungen aus und formulierten die Begriffsklärung um. Alle diese kommentierten Beispiele wurden gefiltert und überprüft, was zu 1503 endgültigen Beispielen führte.
Der spezifische Prozess ist in Abbildung 2 dargestellt: Verwenden Sie zunächst InstructGPT, um unbeschriftete Beispiele zu erstellen, und dann kommentieren sie zwei Linguisten unabhängig voneinander. Schließlich werden durch die Integration durch einen Autor die endgültigen Anmerkungen und Anmerkungen erhalten.
▲ Abbildung 2 Annotationsprozess zur Generierung von Beispielen in AMBIENT
Darüber hinaus wird hier auch die Frage der Konsistenz der Annotationsergebnisse zwischen verschiedenen Annotatoren und die im AMBIENT-Datensatz vorhandenen Arten von Mehrdeutigkeiten diskutiert. Der Autor wählte zufällig 100 Stichproben in diesem Datensatz als Entwicklungssatz aus, und die restlichen Stichproben wurden als Testsatz verwendet. Abbildung 3 zeigt die Verteilung der Satzbezeichnungen, und jede Stichprobe verfügt über eine entsprechende Inferenzbeziehungsbezeichnung. Untersuchungen zeigen, dass im Falle einer Mehrdeutigkeit die Annotationsergebnisse mehrerer Annotatoren konsistent sind und die Verwendung der gemeinsamen Ergebnisse mehrerer Annotatoren die Annotationsgenauigkeit verbessern kann.
▲ Abbildung 3 Verteilung der Set-Labels in AMBIENT
Diese Studie analysiert das Verhalten von Annotatoren beim Kommentieren mehrdeutiger Eingaben nach dem traditionellen NLI-Drei-Wege-Annotationsschema. Die Studie ergab, dass Annotatoren sich der Mehrdeutigkeit bewusst sein können und dass Mehrdeutigkeit die Hauptursache für die Kennzeichnung von Unterschieden ist. Damit wird die weit verbreitete Annahme in Frage gestellt, dass „Uneindeutigkeit“ die Quelle der Unsicherheit in simulierten Beispielen sei.
In der Studie wurde der AMBIENT-Datensatz verwendet und 9 Crowdsourcing-Mitarbeiter wurden eingestellt, um jedes mehrdeutige Beispiel zu kommentieren.
Die Aufgabe ist in drei Schritte unterteilt:
Unter ihnen sind in Schritt 2 drei mögliche Erklärungen, zwei mögliche Erklärungen. Die Bedeutung ähnelt einem Satz aber nicht genau das Gleiche. Schließlich wird jede mögliche Erklärung in das ursprüngliche Beispiel eingesetzt, um drei neue NLI-Beispiele zu erhalten, und der Annotator wird gebeten, jeweils eine Bezeichnung auszuwählen.
Die Ergebnisse dieses Experiments stützen die Hypothese: Unter einem einzigen Kennzeichnungssystem führen die ursprünglichen Fuzzy-Beispiele zu äußerst inkonsistenten Ergebnissen, d Ergebnisse. Wenn der Aufgabe jedoch ein Schritt zur Begriffsklärung hinzugefügt wurde, waren die Annotatoren im Allgemeinen in der Lage, mehrere Möglichkeiten für die Sätze zu identifizieren und zu überprüfen, und die Inkonsistenzen in den Ergebnissen wurden weitgehend behoben. Daher ist die Begriffsklärung ein wirksames Mittel, um den Einfluss der Subjektivität des Annotators auf die Ergebnisse zu verringern.
▲Tabelle 2 Few-Shot-Vorlagen zum Generieren von Begriffsklärungsaufgaben, wenn die Prämisse unklar ist
Beim Testen hat jedes Beispiel 4 weitere Testbeispiele als Kontext und verwendet die EDIT-F1-Metrik und menschliche Bewertung, um Ergebnisse und Korrektheit zu berechnen . Die in Tabelle 3 gezeigten experimentellen Ergebnisse zeigen, dass GPT-4 im Test am besten abgeschnitten hat und einen EDIT-F1-Score von 18,0 % und eine menschliche Bewertungsgenauigkeit von 32,0 % erreicht hat. Darüber hinaus wurde beobachtet, dass große Modelle häufig die Strategie verfolgen, während der Disambiguierung zusätzlichen Kontext hinzuzufügen, um Hypothesen direkt zu bestätigen oder zu widerlegen. Es ist jedoch wichtig zu beachten, dass die menschliche Bewertung möglicherweise die Fähigkeit des Modells, Unklarheitsquellen genau zu melden, überschätzt.
▲Tabelle 3 Leistung großer Modelle auf AMBIENT
In diesem Teil wird hauptsächlich die Leistung großer Modelle bei der Identifizierung mehrdeutiger Sätze untersucht. Durch die Erstellung einer Reihe von Vorlagen für wahre und falsche Aussagen und einen Zero-Shot-Test des Modells bewerteten die Forscher, wie gut das große Modell bei der Auswahl der Vorhersagen zwischen wahr und falsch abschneidet. Experimentelle Ergebnisse zeigen, dass GPT-4 das beste Modell ist. Wenn jedoch Mehrdeutigkeit berücksichtigt wird, schneidet GPT-4 bei der Beantwortung mehrdeutiger Interpretationen aller vier Vorlagen schlechter ab als zufällige Schätzungen. Darüber hinaus weisen große Modelle Konsistenzprobleme in Bezug auf Fragen auf. Bei unterschiedlichen Interpretationspaaren desselben mehrdeutigen Satzes kann das Modell interne Widersprüche aufweisen.
Diese Ergebnisse legen nahe, dass wir weiter untersuchen müssen, wie wir das Verständnis mehrdeutiger Sätze durch große Modelle verbessern und die Leistung großer Modelle besser bewerten können.
Dieser Teil untersucht hauptsächlich die Fähigkeit zum Verständnis von Mehrdeutigkeiten basierend auf Sprachmodellen. Sprachmodelle werden im gegebenen Kontext getestet und vergleichen ihre Vorhersagen zur Textfortsetzung unter verschiedenen möglichen Interpretationen. Um die Fähigkeit des Modells zu messen, mit Mehrdeutigkeiten umzugehen, verwendeten die Forscher die KL-Divergenz, um die „Überraschung“ des Modells zu messen, indem sie die Wahrscheinlichkeits- und Erwartungsunterschiede verglichen, die das Modell unter einer gegebenen Mehrdeutigkeit und einem gegebenen korrekten Kontext im entsprechenden Kontext erzeugte. und führte „Interferenzsätze“ ein, die Substantive zufällig ersetzen, um die Fähigkeiten des Modells weiter zu testen.
Experimentelle Ergebnisse zeigen, dass FLAN-T5 die höchste Genauigkeit aufweist, aber die Leistungsergebnisse verschiedener Testsuiten (LS beinhaltet Synonymersetzung, PC beinhaltet die Korrektur von Rechtschreibfehlern und SSD beinhaltet die Korrektur grammatikalischer Strukturen) und verschiedener Modelle sind inkonsistent, was darauf hindeutet Diese Mehrdeutigkeit ist immer noch ein Modell, eine ernsthafte Herausforderung.
Wie in Tabelle 4 gezeigt, gibt es noch viel Raum für Verbesserungen bei der Feinabstimmung des NLI-Modells an vorhandenen Daten mit Label-Änderungen, insbesondere bei Multi-Label-NLI-Aufgaben.
▲Tabelle 4 Leistung des Multi-Label-NLI-Modells auf AMBIENT
Dieses Experiment untersucht verschiedene Arten des Verstehens politischer Sprache und beweist, dass Modelle, die auf unterschiedliche Arten des Verstehens reagieren, effektiv eingesetzt werden können . Die Forschungsergebnisse sind in Tabelle 5 dargestellt. Bei mehrdeutigen Sätzen können einige erklärende Interpretationen die Mehrdeutigkeit natürlich beseitigen, da diese Interpretationen nur die Mehrdeutigkeit beibehalten oder eine bestimmte Bedeutung klar zum Ausdruck bringen können.
▲Tabelle 5 Die Erkennungsmethode dieses Artikels markiert politische Rede als mehrdeutig
Darüber hinaus kann die Interpretation dieser Vorhersage die Quelle der Mehrdeutigkeit aufdecken. Durch die weitere Analyse der Ergebnisse falsch positiver Ergebnisse fanden die Autoren auch viele Unklarheiten, die bei Faktenchecks nicht erwähnt wurden, was das große Potenzial dieser Tools zur Vermeidung von Missverständnissen verdeutlicht.
Wie in diesem Artikel dargelegt, wird die Mehrdeutigkeit natürlicher Sprache eine zentrale Herausforderung bei der Modelloptimierung sein. Wir gehen davon aus, dass Modelle zum Verständnis natürlicher Sprache in der zukünftigen technologischen Entwicklung in der Lage sein werden, den Kontext und die Schlüsselpunkte in Texten genauer zu identifizieren und eine höhere Sensibilität im Umgang mit mehrdeutigen Texten zu zeigen. Obwohl wir einen Maßstab für die Bewertung von Modellen zur Verarbeitung natürlicher Sprache zur Identifizierung von Mehrdeutigkeiten festgelegt haben und in der Lage sind, die Einschränkungen von Modellen in diesem Bereich besser zu verstehen, bleibt dies eine sehr anspruchsvolle Aufgabe.
Xi Xiaoyao Technology Talk Original
Autor |
Das obige ist der detaillierte Inhalt vonNeueste Forschung, GPT-4 deckt Mängel auf! Ich kann die sprachliche Mehrdeutigkeit nicht ganz verstehen!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!