Unerwarteterweise sind die Menschen, die beim Training der KI helfen, die erste Gruppe von Menschen, die nach der Entwicklung der KI eliminiert werden.
Viele NLP-Anwendungen erfordern die manuelle Annotation großer Datenmengen für verschiedene Aufgaben, insbesondere für das Training von Klassifikatoren oder die Bewertung der Leistung unbeaufsichtigter Modelle. Je nach Umfang und Komplexität können diese Aufgaben von Crowdsourcing-Mitarbeitern auf Plattformen wie MTurk sowie von geschulten Annotatoren wie Forschungsassistenten durchgeführt werden.
Wir wissen, dass große Sprachmodelle (LLM) ab einem bestimmten Maßstab „entstehen“ können – das heißt, sie können neue Fähigkeiten erwerben, die zuvor unvorhergesehen waren. Als großes Modell, das einen neuen Ausbruch der KI fördert, haben die Fähigkeiten von ChatGPT bei vielen Aufgaben die Erwartungen der Menschen übertroffen, einschließlich der Kennzeichnung von Datensätzen und der Selbstschulung.
Kürzlich haben Forscher der Universität Zürich gezeigt, dass ChatGPT Crowdsourcing-Arbeitsplattformen und menschliche Arbeitsassistenten bei mehreren Annotationsaufgaben, einschließlich Relevanz-, Haltungs-, Themen- und Frame-Erkennung, übertrifft.
Darüber hinaus haben die Forscher nachgerechnet: ChatGPT kostet weniger als 0,003 US-Dollar pro Anmerkung – etwa 20-mal günstiger als MTurk. Diese Ergebnisse zeigen das Potenzial großer Sprachmodelle, die Effizienz der Textklassifizierung erheblich zu verbessern.
Link zum Papier:https://arxiv.org/abs/2303.15056
Viele NLP-Anwendungen erfordern qualitativ hochwertige annotierte Daten, insbesondere für das Training von Klassifizierungsprozessoren oder zur Auswertung die Leistung unbeaufsichtigter Modelle. Beispielsweise müssen Forscher manchmal verrauschte Social-Media-Daten nach Relevanz filtern, Texte verschiedenen Themen- oder Konzeptkategorien zuordnen oder ihre emotionale Haltung messen. Unabhängig von der spezifischen Methode, die für diese Aufgaben verwendet wird (überwachtes, halbüberwachtes oder unüberwachtes Lernen), sind genau gekennzeichnete Daten erforderlich, um einen Trainingssatz zu erstellen oder ihn als Goldstandard zur Leistungsbewertung zu verwenden.
Der übliche Weg, damit umzugehen, besteht darin, wissenschaftliche Mitarbeiter einzustellen oder Crowdsourcing-Plattformen wie MTurk zu nutzen. Als OpenAI ChatGPT entwickelte, vergab es auch das Problem negativer Inhalte an eine Datenanmerkungsagentur in Kenia und führte vor der offiziellen Einführung zahlreiche Anmerkungsschulungen durch.
Dieser von der Universität Zürich in der Schweiz vorgelegte Bericht untersucht das Potenzial großer Sprachmodelle (LLM) in Textannotationsaufgaben, mit Schwerpunkt auf ChatGPT, veröffentlicht im November 2022. Es beweist, dass ChatGPT Zero-Shot (d. h. ohne zusätzliche Schulung) die MTurk-Annotation bei Klassifizierungsaufgaben übertrifft und nur ein paar Zehntel der Kosten manueller Arbeit beträgt.
Die Forscher verwendeten eine Stichprobe von 2.382 Tweets, die in einer früheren Studie gesammelt wurden. Die Tweets wurden von geschulten Annotatoren (wissenschaftlichen Mitarbeitern) für fünf verschiedene Aufgaben gekennzeichnet: Relevanz, Haltung, Thema und Zwei-Frame-Erkennung. Im Experiment übergab der Forscher die Aufgabe an ChatGPT als Zero-Shot-Klassifizierung und gleichzeitig an die Crowdsourcing-Mitarbeiter auf MTurk und bewertete dann die Leistung von ChatGPT anhand von zwei Benchmarks: relativ zur Genauigkeit menschlicher Mitarbeiter auf der Crowdsourcing-Plattform, und Genauigkeit im Vergleich zu wissenschaftlichen Hilfskommentatoren.
Es wurde festgestellt, dass die Zero-Sample-Genauigkeit von ChatGPT bei vier von fünf Aufgaben höher war als die von MTurk. Bei allen Aufgaben übertrifft die Encodervereinbarung von ChatGPT die von MTurk und geschulten Kommentatoren. Darüber hinaus ist ChatGPT hinsichtlich der Kosten viel günstiger als MTurk: Fünf Klassifizierungsaufgaben kosten bei ChatGPT etwa 68 US-Dollar (25264 Anmerkungen) und bei MTurk etwa 657 US-Dollar (12632 Anmerkungen).
Die Kosten pro Anmerkung bei ChatGPT betragen also etwa 0,003 US-Dollar oder ein Drittel eines Cents – etwa 20-mal günstiger als bei MTurk und von höherer Qualität. Vor diesem Hintergrund ist es nun möglich, mehr Beispiele zu kommentieren oder große Trainingssätze für überwachtes Lernen zu erstellen. Basierend auf vorhandenen Tests kosten 100.000 Anmerkungen etwa 300 US-Dollar.
Während weitere Forschung erforderlich ist, um besser zu verstehen, wie ChatGPT und andere LLMs in einem breiteren Kontext funktionieren, deuten diese Ergebnisse darauf hin, dass sie das Potenzial haben, die Art und Weise, wie Forscher Daten annotieren, zu verändern und MTurk zu stören, sagen die Forscher einige Geschäftsmodelle anderer Plattformen .
Die Forscher verwendeten einen Datensatz von 2382 Tweets, die aus früheren Studien zu Aufgaben im Zusammenhang mit der Inhaltsmoderation manuell mit Anmerkungen versehen wurden. Konkret erstellten geschulte Annotatoren (wissenschaftliche Mitarbeiter) Goldstandards für fünf konzeptionelle Kategorien mit unterschiedlicher Anzahl von Kategorien: Relevanz von Tweets für Fragen der Inhaltsmoderation (relevant/irrelevant); in Bezug auf Artikel 230 (Position als Teil des U.S. Communications Decency Act von 1996). , ein wichtiger Teil der US-amerikanischen Internetgesetzgebung; Themenidentifizierung (sechs Kategorien); Rahmenwerke der Gruppe 1 (Inhaltsmoderation als Problem, Lösung oder neutral);
Die Forscher führten dann genau dieselben Klassifizierungen mithilfe von ChatGPT und Crowdsourcing-Arbeitern durch, die auf MTurk rekrutiert wurden. Für ChatGPT wurden vier Anmerkungssätze erstellt. Um die Auswirkungen des ChatGPT-Temperaturparameters zu untersuchen, der den Grad der Zufälligkeit in der Ausgabe steuert, wird er hier mit den Standardwerten 1 und 0,2 annotiert, was eine geringere Zufälligkeit impliziert. Für jeden Temperaturwert führten die Forscher zwei Annotationssätze durch, um die Encoder-Übereinstimmung von ChatGPT zu berechnen.
Für die Experten ergab die Studie, dass zwei Doktoranden der Politikwissenschaft Tweets für alle fünf Aufgaben kommentierten. Für jede Aufgabe erhielten die Programmierer die gleichen Anweisungen und wurden gebeten, Tweets von Aufgabe zu Aufgabe unabhängig zu kommentieren. Um die Genauigkeit von ChatGPT und MTurk zu berechnen, wurden beim Vergleich nur Tweets berücksichtigt, denen beide geschulten Kommentatoren zustimmten.
Für MTurk besteht das Ziel der Forschung darin, die beste Gruppe von Arbeitnehmern auszuwählen, insbesondere durch die Überprüfung von Arbeitnehmern, die von Amazon als „MTurk Masters“ eingestuft werden, mehr als 90 % positive Bewertungen haben und in den Vereinigten Staaten ansässig sind .
Diese Studie verwendet die „gpt-3.5-turbo“-Version der ChatGPT-API, um Tweets zu klassifizieren. Die Kommentierung erfolgte zwischen dem 9. März und dem 20. März 2023. Für jede Anmerkungsaufgabe haben die Forscher bewusst darauf verzichtet, ChatGPT-spezifische Aufforderungen wie „Lass uns Schritt für Schritt denken“ hinzuzufügen, um die Vergleichbarkeit zwischen ChatGPT- und MTurk-Crowdworkern sicherzustellen.
Nachdem wir mehrere Varianten getestet hatten, beschlossen die Leute, Tweets einzeln an ChatGPT zu senden, indem sie eine Eingabeaufforderung wie diese verwendeten: „Dies ist der Tweet, den ich ausgewählt habe. Markieren Sie ihn bitte mit [aufgabenspezifischen Anweisungen (z. B. Eines der Themen im Beschreibung)] Darüber hinaus wurden für jeden Tweet in dieser Studie vier ChatGPT-Antworten gesammelt und für jeden Tweet eine neue Chat-Sitzung erstellt, um sicherzustellen, dass die ChatGPT-Ergebnisse nicht durch den Anmerkungsverlauf beeinflusst wurden
Abbildung 1. ChatGPT-Zero-Shot-Textannotationsfunktionen im Vergleich zu Annotatoren mit hoher Punktzahl auf MTurk. Die Genauigkeit von ChatGPT ist in vier von fünf Aufgaben besser als bei MTurk In der obigen Abbildung hat ChatGPT in einem Fall (Relevanz) einen leichten Vorteil, in den anderen drei Fällen (Frames I, Frames II und Stance) ist die Leistung jedoch sehr ähnlich. ChatGPT schneidet 2,2- bis 3,4-mal besser ab als MTurk. Angesichts der Schwierigkeit der Aufgabe, der Anzahl der Klassen und der Tatsache, dass es sich bei den Anmerkungen um Nullstichproben handelt, ist die Genauigkeit von ChatGPT im Allgemeinen für die Korrelation mehr als ausreichend. Mit zwei Kategorien (relevant/irrelevant) verfügt ChatGPT über eine Die Genauigkeit liegt bei 72,8 %, bei drei Kategorien (positiv/negativ/neutral) beträgt die Genauigkeit 78,7 %, wenn die Anzahl der Kategorien abnimmt, obwohl auch die intrinsische Schwierigkeit der Aufgabe eine Rolle spielt Protokoll, Abbildung 1 zeigt, dass die Leistung von ChatGPT sehr hoch ist und die Leistung bei allen Aufgaben 95 % übersteigt, wenn der Temperaturparameter auf 0,2 eingestellt ist. Einschließlich geschulter Annotatoren ist die Beziehung zwischen den Codern höher und die Genauigkeit ist positiv, selbst wenn der Standardtemperaturwert 1 verwendet wird (was mehr Zufälligkeit impliziert). Obwohl die Korrelation nur auf fünf Datenpunkten basiert, deutet sie auf niedrigere Temperaturwerte hin möglicherweise besser für die Anmerkungsaufgabe geeignet, da es die Konsistenz der Ergebnisse zu verbessern scheint, ohne die Genauigkeit drastisch zu verringern. Darüber hinaus muss betont werden, dass das Testen von ChatGPT ein komplexes Thema ist. Forscher haben konzeptionelle Kategorien für bestimmte Forschungszwecke entwickelt. Einige Aufgaben umfassen eine große Anzahl von Kategorien, dennoch erreicht ChatGPT immer noch eine hohe Genauigkeit
.Die Verwendung von Modellen zur Annotation von Daten ist nichts Neues. In der Informatikforschung, die große Datensätze verwendet, beschriften Menschen oft eine kleine Anzahl von Proben und erweitern sie dann durch maschinelles Lernen. Nachdem wir jedoch den Menschen übertroffen haben, können wir den Urteilen von ChatGPT in Zukunft möglicherweise mehr vertrauen.
Das obige ist der detaillierte Inhalt vonWird ChatGPT die Datenanmerkungsbranche zerstören? 20-mal günstiger als Menschen und genauer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!