Stellen Sie sich vor, Sie besuchen eine lebhafte Cocktailparty voller angeregter Gespräche und dem Klirren der Gläser.
Zu diesem Zeitpunkt versteckst du dich als gemütlicher Beobachter glücklich in der Ecke. Doch selbst ohne im Mittelpunkt einer Party zu stehen, können Sie leicht die sozialen Beziehungen zwischen verschiedenen Menschen herausfinden, verstehen, was vor sich geht, und sogar offene und verdeckte soziale Botschaften entschlüsseln, indem Sie die verbalen und nonverbalen Hinweise der Menschen lesen.
Was wäre, wenn ein LLM dieses Niveau an sozialen Fähigkeiten reproduzieren könnte? Nein, das ist Koko Mind.
Öffnen Sie einfach ein Video und das Modell beginnt, den Gesichtsausdruck der Figur zu analysieren und Rückschlüsse auf die Emotionen der Figur zu ziehen.
Dann können Sie in der Eingabeaufforderungsleiste auf der rechten Seite auch Fragen stellen, damit die KI die Unterströmung der sozialen Rätsel im Video weiter analysieren kann.
(Seien wir ehrlich, das fällt manchen Menschen schwer)
Bilder
Koko Mind enthält 150 komplexe soziale Interaktionen mit mehreren Teilnehmern sowie Freitextfragen und -antworten.
Um Datenvielfalt und Skalierbarkeit zu gewährleisten und Datenkontamination zu vermeiden, werden alle sozialen Interaktionen, Fragen und Antworten von GPT-4 generiert und anschließend von menschlichen Experten überprüft.
Die Analysedaten basieren auf drei verschiedenen Quellen:
Die Anteile der drei Datenquellen sind wie folgt:
Bilder
Für jede soziale Interaktion werden Forscher verschiedene Fragen stellen, um die folgenden Aspekte zu untersuchen, die eng mit dem sozialen Verständnis zusammenhängen.
Die Forscher verwendeten text-davinci-003 als Referenz, um verschiedene Modelle nach AlpacaEval zu bewerten.
In dem die Forscher die nonverbalen Hinweise in den Klammern aus dem Kontext entfernten (z. B. nervös Kaffee trinken usw.).
Hier einige interessante Erkenntnisse:
(Eine mögliche Erklärung ist, dass GPT-4 ein multimodales Modell ist, das zusätzliche nonverbale Informationen besser verstehen kann.)
In einem Blogbeitrag zeichneten die Forscher Tabellen, die die Leistung deutlich erkennen lassen jedes Modells.
Bilder
Die Ergebnisse sind zwar in vielerlei Hinsicht aufregend, haben aber auch gewisse Einschränkungen. Erstens ist Koko Mind relativ klein, was die breite Anwendbarkeit und Vollständigkeit der Schlussfolgerungen der Forscher einschränken könnte.
Zweitens werden alle Interaktionen in Koko Mind von GPT-4 generiert und erfordern eine manuelle Überprüfung, was die Erweiterung des Datensatzes erschwert.
Obwohl Koko Mind im Datensatz von Menschen verifizierte Antworten bereitstellt, haben die Forscher diese Antworten bei der Auswertung nicht als Referenz verwendet, und da diese Antworten von GPT-4 generiert wurden, sind sie möglicherweise in Richtung GPT -4 verzerrt .
Zukünftige Forschung könnte sich darauf konzentrieren, wie Modelle mit vom Menschen validierten, maschinengenerierten Referenzantworten bewertet werden können.
Trotz der Existenz von Einschränkungen der einen oder anderen Art betrachten Forscher Koko Mind natürlich immer noch als Sprungbrett für zukünftige Forschungen im Zusammenhang mit sozialer Intelligenz, multimodalen Sprachmodellen usw.
Das obige ist der detaillierte Inhalt von„Social Master' GPT-4! Wissen, wie man Ausdrücke interpretiert und über Psychologie spekuliert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!