Kann GPT-4 den Turing-Test bestehen?
Wenn ein ausreichend leistungsstarkes Modell geboren ist, verwenden Menschen häufig den Turing-Test, um die Intelligenz dieses LLM zu messen.
Kürzlich haben Forscher der Abteilung für Kognitionswissenschaft an der UCSD Folgendes entdeckt:
Im Turing-Test können Menschen GPT-4 einfach nicht von Menschen unterscheiden!
Papieradresse: https://arxiv.org/pdf/2405.08007
Im Turing-Test wurde GPT-4 in 54 % der Fälle als menschlich beurteilt.
Die experimentellen Ergebnisse zeigen, dass dies das erste Mal ist, dass ein System den „interaktiven“ Zwei-Personen-Turing-Test empirisch bestanden hat.
Der Forscher Cameron R. Jones rekrutierte 500 Freiwillige, die in 5 Rollen aufgeteilt wurden: 4 Bewerter, nämlich GPT-4, GPT-3.5, ELIZA und Menschen, und eine weitere Rolle, die einfach als Mensch „handelt“. , versteckt sich auf der anderen Seite des Bildschirms und wartet darauf, dass der Bewerter es entdeckt.
Das Folgende ist ein Auszug aus dem Spiel. Können Sie erkennen, welches Dialogfeld menschlich ist?
Abbildung 1: Teil des Gesprächs zwischen dem menschlichen Vernehmer (grün) und dem Zeugen (grau)
Tatsächlich handelt es sich bei einem dieser vier Gespräche um ein Gespräch mit einem menschlichen Zeugen, und das Der Rest sind Gespräche mit künstlicher Intelligenz.
In den letzten 74 Jahren wurden viele Versuche mit Turing-Tests unternommen, aber es wurden nur wenige kontrollierte Experimente durchgeführt.
Der berühmte Loebner Award ist ein jährlicher Wettbewerb. Allerdings hat seit seiner ersten Austragung im Jahr 1990 bis 2020 kein System den Test bestanden.
Eine kürzlich durchgeführte groß angelegte Studie ergab, dass Menschen in einem 2-minütigen Online-Gespräch eine Reihe von LLMs mit einer Genauigkeit von 60 % erkennen können.
Bisher gab es keine „kontrollierte“ experimentelle Demonstration, bei der eine Maschine den Test bestanden hätte.
Um zu testen, ob es für Menschen möglich ist, die Täuschung aktueller KI-Systeme zu durchschauen, führten Forscher mithilfe von GPT-4 einen zufällig kontrollierten Zwei-Personen-Turing-Test durch.
Die Testanforderungen sind sehr einfach, das heißt, menschliche Teilnehmer beginnen ein 5-minütiges Gespräch mit Menschen und künstlicher Intelligenz und stellen fest, ob der Gesprächspartner ein Mensch ist.
Wie eingangs erwähnt haben die Forscher insgesamt 3 Modelle ausgewertet – GPT-4, GPT-3.5 und ELIZA.
Für die ersten beiden LLMs haben die Forscher die leistungsstärksten Hinweise aus den explorativen Studien GPT-4 und GPT-3.5 angepasst, um dem großen Modell Anweisungen zu geben, wie es auf Nachrichten reagieren soll.
Eine zentrale Herausforderung bei der Interpretation des Turing-Tests besteht laut Forschern darin, dass die herausragende Leistung eines Systems auf zwei Gründe zurückzuführen sein kann:
- Erstens ist es eine gute Nachahmung des Menschen
- Zweitens Richter ist zu leichtgläubig
Letztere Situation wird oft als ELIZA-Effekt bezeichnet, das heißt, die Teilnehmer werden selbst einfache Systeme humanisieren.
Das ELIZA-System ist jedem sehr vertraut.
Es war ein einfacher regelbasierter Chatbot aus den 1960er-Jahren, dem die Nutzer jedoch auch menschliche Eigenschaften zuschrieben.
Daher nutzten die Forscher im Experiment ELIZA als Basis, um einerseits den ELIZA-Effekt empirisch zu quantifizieren und andererseits um betriebliche Kontrollen im Experiment durchzuführen.
Was sind also die konkreten Ergebnisse dieses Turing-Tests?
Schauen Sie sich zunächst einen wichtigen Indikator an: die Erfolgsquote.
Die Erfolgsquote definieren die Forscher als den Anteil der Bewertungsobjekte im Spiel, die von den Bewertern als menschlich beurteilt werden.
Die Erfolgsquote von GPT-4 beträgt 54 % und liegt damit über dem GPT-3,5- (50 %) und dem ELIZA-Ausgangswert (22 %), aber niedriger als bei menschlichen Probanden (67 %).
Bestandsquote der Gutachter (links) und Vertrauen der Gutachter (rechts). Jeder Punkt im Bild rechts stellt ein Spiel dar
Dieses Ergebnis ist eigentlich nicht überraschend und stimmt im Wesentlichen mit den Annahmen in der Anfangsphase der Forschung überein.
Vor dem Experiment gingen die Forscher von mehreren Annahmen aus: Erstens ging man davon aus, dass die Fähigkeit des Menschen, GPT-4 zu erkennen, nicht über den Zufall (50 %) hinausgehen würde.
Um dies zu überprüfen, passten die Forscher ein logistisches Regressionsmodell an, um nur die Erfolgsquote des Abschnitts vorherzusagen.
Es gibt keinen signifikanten Unterschied zwischen dem Schnittpunkt und 0 (z=0,14, p=0,482), was zeigt, dass die Erfolgsquote von GPT-4 ungefähr 50 % betragen kann. Das Bayes'sche Modell sagt ein 95 %-Konfidenzintervall für den GPT-4-Abschnitt von -0,24–0,55 voraus (entspricht einer Erfolgsquote von 44 %–63 %).
Das bedeutet, dass die Wahrscheinlichkeit einer erfolgreichen Diskriminierung durch Menschen bei GPT-4 in etwa so hoch ist wie das Werfen einer Münze!
Die Ergebnisse bestätigten auch die zweite und dritte Hypothese der Forscher: Die Erfolgsquote beim Menschen war deutlich höher als die Erfolgsquote bei GPT-4 (z=2,42, p=0,017), während die Erfolgsquote bei GPT-4 höher war Erfolgsquote von ELIZA (z=4,11, p
Was jedoch nicht mit den experimentellen Annahmen des Forschers übereinstimmt, ist, dass die Leistung von GPT-4 und GPT-3.5 nahezu gleich ist (z=0,497, p=0,619).
Im Bereich „Vorgeben, ein Mensch zu sein“ herrscht Gleichstand.
Überraschenderweise waren Teilnehmer, die über ein besseres Verständnis der Funktionsweise von LLMs berichteten, bei der Identifizierung von LLMs nicht erfolgreicher (z = -0,023, p = 0,869).
In einer explorativen Analyse stellten die Forscher fest, dass das Alter einen negativen Einfluss auf die Genauigkeit des Vernehmers hatte (z = -2,24, p = 0,025), aber auch andere demografische Variablen wie Geschlecht, Bildungsniveau und Interaktion hatten einen negativen Einfluss auf die Interaktionshäufigkeit des Chatbots ) hatte keine nennenswerte Wirkung.
Warum ist das das Ergebnis? Lassen Sie uns die Gründe dafür analysieren.
Um einen Einblick zu erhalten, was genau die Entscheidungen der Bewerter beeinflusst, haben wir die von den Bewertern verwendeten Strategien und die Gründe, die sie für ihre Entscheidungen angegeben haben, kategorisiert.
36 % der Bewerter chatten mit dem Bewertungsziel und fragen nach persönlichen Daten oder täglichen Aktivitäten.
Die häufigsten Strategien in der zweiten und dritten Kategorie sind sozialer und emotionaler Natur (25 %), zum Beispiel die Frage nach den Meinungen und Erfahrungen des Prüflings und die Beobachtung, ob er Sinn für Humor hat.
Andere konzentrieren sich auf Wissen und Argumentation (13 %), einschließlich Fragen zu Mathematik, Logik und Allgemeinwissen.
Fragestrategie (links) und durchschnittliche Genauigkeit (rechts)
Um die Wirksamkeit jeder Strategie zu vergleichen, berechneten die Forscher die durchschnittliche Genauigkeit anhand dieser Strategien.
Wenn der Prüfling die andere Person nach menschlicher Erfahrung (75 %), Logik und Mathematik (78 %) befragt oder die andere Person direkt der künstlichen Intelligenz „vorwirft“ (80 %), liegt sie in der Regel näher an der „ korrekte Antwort".
Bei Spielen liegt der Grund dafür, dass künstliche Intelligenz „ihre Mängel zeigt“, meist darin, dass der Bewerter das Gefühl hat, dass sie sich zu zwingen scheint, eine Rolle zu spielen, entweder zu beiläufig oder ohne Persönlichkeit.
Und ELIZA wird leicht „entlarvt“, hauptsächlich aufgrund unnatürlicher Reaktionen und mangelndem Kontextbewusstsein.
Es zeigt sich, dass sowohl bei den verwendeten Strategien als auch bei den Entscheidungsgründen der am Spiel teilnehmenden Freiwilligen mehr Wert auf den Sprachstil und sozio-emotionale Faktoren gelegt wurde als auf traditionellere intellektuelle Kategorien ( Wissen und Argumentation).
Dies scheint eine Grundannahme der Freiwilligen widerzuspiegeln – soziale Intelligenz ist die unnachahmlichste menschliche Eigenschaft für KI.
Wie erkennt man, wann ein System den Turing-Test bestanden hat?
Turing sagte in seiner Arbeit von 1950 voraus, dass KI-Systeme bis zum Ende des Jahrhunderts in der Lage sein würden, das Nachahmungsspiel so gut zu spielen, dass ein Prüfer nach 5- Minutenwechsel %.
Diese Schlussfolgerung hat zu der Frage geführt, ob die Erfolgsquote von KI 30 % erreichen kann, was zum Diskussionsziel vieler Forscher geworden ist.
Allerdings scheint dieser Maßstab willkürlich zu sein und es ist unklar, ob Turing ihn als Definition von Erfolg beabsichtigte.
Tatsächlich ist die 50 %-Basislinie vernünftiger, weil sie besser beweist, dass menschliche Gutachter bei der Identifizierung von KI nicht besser sind als der Zufall.
Diese Definition ist besonders relevant für das Ziel herauszufinden, ob Benutzer andere Menschen bei Online-Interaktionen zuverlässig identifizieren können.
In der vorab veröffentlichten Analyse der Forscher wurde dieses Problem behoben, indem die ELIZA-Basislinie als Manipulationsprüfung verwendet wurde.
Nur wenn die Analyse zeigt, dass die Erfolgsquote von ELIZA niedriger als die Wahrscheinlichkeit ist und die Erfolgsquote von GPT-4 nicht niedriger als die Wahrscheinlichkeit ist, kann davon ausgegangen werden, dass das Modell den Test bestanden hat.
Nach dieser Definition hat GPT-4 diese Version des Turing-Tests eindeutig bestanden.
Darüber hinaus zeigten die Konfidenzwerte und Entscheidungsgrundlagen der Teilnehmer, dass sie nicht zufällig geraten hatten: GPT-4 hat ein durchschnittliches menschliches Konfidenzniveau von 73 % (siehe Abbildung 2).
Einige Netizens sagten, wenn wir den Turing-Test mit Intelligenz gleichsetzen wollen, sei der Turing-Test kein guter Test. Allerdings ist die Tatsache, dass KI fast immer Menschen „täuschen“ kann, etwas besorgniserregend.
Einige Leute sagten, dass sie dieser Art von Test skeptisch gegenüberstanden. Da GPT-4 den meisten Menschen überlegen ist, lässt sich leicht unterscheiden, wer ein Mensch und wer eine künstliche Intelligenz ist.
Die Forscher sagten, dass dies tatsächlich ein Problem ist, auf das wir gestoßen sind. Beispielsweise ist der Wissensvorrat von GPT-4 „zu reichhaltig“ oder es beherrscht zu viele Sprachen. Wir fordern das Modell ausdrücklich auf, diese Situation zu vermeiden, was bis zu einem gewissen Grad effektiv ist.
Das obige ist der detaillierte Inhalt vonGPT-4 hat den Turing-Test mit einer Erfolgsquote von 54 % bestanden! Neue Arbeit der UCSD: Menschen können GPT-4 nicht erkennen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!