Inhaltsverzeichnis
Die Genauigkeit von GPT-4 beträgt nur 33 %
Die Methode der Probandenauswahl wurde in Frage gestellt.
Heim Technologie-Peripheriegeräte KI GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser' beträgt die Genauigkeitsrate nur 33 %

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser' beträgt die Genauigkeitsrate nur 33 %

Nov 21, 2023 am 08:38 AM
ai 推理

GPT-4s Fähigkeit zum grafischen Denken ist weniger als halb so groß wie die des Menschen?

Eine Studie des Santa Fe Research Institute in den Vereinigten Staaten zeigt, dass die Genauigkeit von GPT-4 für Fragen zum grafischen Denken nur 33 % beträgt.

GPT-4v verfügt über multimodale Fähigkeiten, aber seine Leistung ist relativ schlecht und kann nur 25 % der Fragen richtig beantworten

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

△Die gepunktete Linie stellt die durchschnittliche Leistung von 16 Aufgaben dar

Sobald die Ergebnisse vorliegen Dieses Experiment wurde veröffentlicht und löste sofort eine breite Diskussion auf YC aus

Einige Internetnutzer, die dieses Ergebnis unterstützten, sagten, dass GPT bei der Verarbeitung abstrakter Grafiken nicht gut funktioniert und es schwieriger ist, Konzepte wie „Position“ und „Rotation“ zu verstehen

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

Einige Internetnutzer äußerten jedoch Zweifel an dieser Schlussfolgerung:

Obwohl diese Ansicht nicht als falsch bezeichnet werden kann, ist sie nicht völlig überzeugend

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

Was das Konkrete betrifft Aus Gründen lesen wir weiter.

Die Genauigkeit von GPT-4 beträgt nur 33 %

Um die Leistung von Menschen und GPT-4 bei diesen Grafikproblemen zu bewerten, verwendeten die Forscher den im Mai dieses Jahres veröffentlichten ConceptARC-Datensatz.

ConceptARC umfasst insgesamt 16 Unterkategorien Fragen zum grafischen Denken, 30 Fragen pro Kategorie, insgesamt 480 Fragen.

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

Diese 16 Unterkategorien umfassen Positionsbeziehungen, Formen, Operationen, Vergleiche usw.

Konkret bestehen diese Fragen aus Pixelblöcken. Menschen und GPT müssen anhand gegebener Beispiele Muster finden und die Ergebnisse der auf die gleiche Weise verarbeiteten Bilder analysieren.

Der Autor zeigt im Artikel speziell Beispiele für diese 16 Unterkategorien, eines für jede Kategorie.

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %
GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %
GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

Die Ergebnisse zeigten, dass die durchschnittliche Genauigkeitsrate von 451 menschlichen Probanden in jedem Unterpunkt nicht weniger als 83 % betrug und der Durchschnitt von 16 Aufgaben 91 % erreichte.

Wenn Sie eine Frage dreimal ausprobieren können (wenn Sie sie einmal richtig beantworten), beträgt die höchste Genauigkeit von GPT-4 (einzelne Stichprobe) nicht mehr als 60 % und der Durchschnitt liegt nur bei 33 %

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

Morgen: Vor einiger Zeit hat der Autor von ConceptARC Benchmark, der an diesem Experiment beteiligt war, auch ein ähnliches Experiment durchgeführt, aber der Null-Stichprobentest wurde in GPT-4 durchgeführt. Das Ergebnis war die durchschnittliche Genauigkeitsrate von 16 Aufgaben nur 19 %.

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

GPT-4v ist ein multimodales Modell, aber seine Genauigkeit ist gering. Bei einem kleinen ConceptARC-Datensatz, der aus 48 Fragen bestand, betrugen die Genauigkeitsraten von Nullstichprobentests und Einzelstichprobentests nur 25 % bzw. 23 %

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

Nach weiterer Analyse der falschen Antworten stellten die Forscher fest Einige menschliche Fehler scheinen wahrscheinlich auf „Nachlässigkeit“ zurückzuführen zu sein, während GPT die Regeln der Frage überhaupt nicht verstanden hat.

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %

Die meisten Internetnutzer haben keine Zweifel an diesen Daten, aber was dazu führte, dass dieses Experiment in Frage gestellt wurde, war die Gruppe der rekrutierten Probanden und die dem GPT zur Verfügung gestellte Eingabemethode.

Die Methode der Probandenauswahl wurde in Frage gestellt.

Zu Beginn der Forschung wurden die Teilnehmer rekrutiert Themen auf einer Amazon-Crowdsourcing-Plattform.

Der Forscher extrahierte als Einführungstest einige einfache Fragen aus dem Datensatz. Die Probanden müssen mindestens zwei von drei zufälligen Fragen richtig beantworten, bevor sie am formellen Test teilnehmen können. Die von Forschern gefundenen Ergebnisse zeigen, dass manche Menschen den Aufnahmetest nur aus Geldgier absolvieren und die erforderlichen Fragen überhaupt nicht beantworten.

Als letzten Ausweg erhöht der Forscher

die Schwelle für die Teilnahme den Testbis zu dem Punkt, an dem er auf der Plattform abgeschlossen werden kann. Mindestens 2.000 Aufgaben bestehen und die Erfolgsquote muss 99 % erreichen. Obwohl der Autor die Erfolgsquote zur Überprüfung von Personen verwendet, gibt es im Hinblick auf spezifische Fähigkeiten, abgesehen von der Notwendigkeit, dass die Fächer Englisch sprechen müssen, „keine besonderen Anforderungen“ für andere berufliche Fähigkeiten wie Grafik

. Um Datenvielfalt zu erreichen, verlagerten die Forscher die Rekrutierungsbemühungen später im Experiment auf eine andere Crowdsourcing-Plattform. Am Ende nahmen insgesamt 415 Probanden an diesem Experiment teil

Einige Leute bezweifelten jedoch immer noch, dass die Proben im Experiment „

nicht zufällig genug“ seien.

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %Einige Internetnutzer wiesen darauf hin, dass es auf der Amazon-Crowdsourcing-Plattform, die von Forschern zur Rekrutierung von Probanden genutzt wird,

große Modelle gibt, die vorgeben, Menschen zu sein.

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %Die Bedienung der multimodalen Version von GPT ist relativ einfach. Geben Sie einfach das Bild direkt ein und verwenden Sie das entsprechende Eingabeaufforderungswort

Aber für die Klartextversion von GPT-4 (0613) ohne Multimodalität muss das Bild in Rasterpunkte umgewandelt werden und

Zahlen anstelle von Farben verwenden

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %.

Einige Leute sind mit dieser Operation nicht einverstanden: Nach der Konvertierung des Bildes in eine digitale Matrix

hat sich das Konzept völlig geändert

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 % Sogar Menschen, die durch Zahlen dargestellte „Grafiken“ betrachten, können das vielleicht nicht Verstehe es auch

Noch eine SacheZufälligerweise testete Joy Hsu, eine chinesische Doktorandin an der Stanford University, auch die Graphverständnisfähigkeit von GPT-4v an einem geometrischen Datensatz

Letztes Jahr wurde ein Datensatz erstellt veröffentlicht mit dem Ziel, Ihr Verständnis der euklidischen Geometrie anhand großer Modelle zu testen. Nachdem GPT-4v geöffnet wurde, testete Hsu den Datensatz erneut

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 % und stellte fest, dass die Art und Weise, wie GPT-4v Grafiken versteht, „völlig anders als die des Menschen“ zu sein scheint.

Datentechnisch ist GPT-4v dem Menschen bei der Beantwortung dieser geometrischen Fragen offensichtlich unterlegen

GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser beträgt die Genauigkeitsrate nur 33 %Papieradresse:

[1]https://arxiv.org/abs/2305.07141

[2 ]https://arxiv.org/abs/2311.09247

Das obige ist der detaillierte Inhalt vonGPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser' beträgt die Genauigkeitsrate nur 33 %. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Debian Mail Server Firewall -Konfigurationstipps Debian Mail Server Firewall -Konfigurationstipps Apr 13, 2025 am 11:42 AM

Das Konfigurieren der Firewall eines Debian -Mailservers ist ein wichtiger Schritt zur Gewährleistung der Serversicherheit. Im Folgenden sind mehrere häufig verwendete Firewall -Konfigurationsmethoden, einschließlich der Verwendung von Iptables und Firewalld. Verwenden Sie Iptables, um Firewall so zu konfigurieren, dass Iptables (falls bereits installiert) installiert werden:

Wie Debian Readdir sich in andere Tools integriert Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

So implementieren Sie die Dateisortierung nach Debian Readdir So implementieren Sie die Dateisortierung nach Debian Readdir Apr 13, 2025 am 09:06 AM

In Debian -Systemen wird die Readdir -Funktion zum Lesen des Verzeichnisinhalts verwendet, aber die Reihenfolge, in der sie zurückgibt, ist nicht vordefiniert. Um Dateien in einem Verzeichnis zu sortieren, müssen Sie zuerst alle Dateien lesen und dann mit der QSORT -Funktion sortieren. Der folgende Code zeigt, wie Verzeichnisdateien mithilfe von Readdir und QSORT in Debian System sortiert werden:#include#include#include#include // benutzerdefinierte Vergleichsfunktion, verwendet für QSortIntCompare (constvoid*a, constvoid*b) {rettrcmp (*(*(*(

Debian Mail Server SSL -Zertifikat -Installationsmethode Debian Mail Server SSL -Zertifikat -Installationsmethode Apr 13, 2025 am 11:39 AM

Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

So führen Sie die digitale Signaturüberprüfung mit Debian OpenSSL durch So führen Sie die digitale Signaturüberprüfung mit Debian OpenSSL durch Apr 13, 2025 am 11:09 AM

Unter Verwendung von OpenSSL für die digitale Signaturüberprüfung im Debian -System können Sie folgende Schritte befolgen: Vorbereitung für die Installation von OpenSSL: Stellen Sie sicher, dass Ihr Debian -System OpenSSL installiert hat. Wenn nicht installiert, können Sie den folgenden Befehl verwenden, um es zu installieren: sudoaptupdatesudoaptininTallopenSSL, um den öffentlichen Schlüssel zu erhalten: Die digitale Signaturüberprüfung erfordert den öffentlichen Schlüssel des Unterzeichners. In der Regel wird der öffentliche Schlüssel in Form einer Datei wie Public_key.pe bereitgestellt

Wie Debian OpenSSL verhindert, dass Mann-in-the-Middle-Angriffe Wie Debian OpenSSL verhindert, dass Mann-in-the-Middle-Angriffe Apr 13, 2025 am 10:30 AM

In Debian Systems ist OpenSSL eine wichtige Bibliothek für Verschlüsselung, Entschlüsselung und Zertifikatverwaltung. Um einen Mann-in-the-Middle-Angriff (MITM) zu verhindern, können folgende Maßnahmen ergriffen werden: Verwenden Sie HTTPS: Stellen Sie sicher, dass alle Netzwerkanforderungen das HTTPS-Protokoll anstelle von HTTP verwenden. HTTPS verwendet TLS (Transport Layer Security Protocol), um Kommunikationsdaten zu verschlüsseln, um sicherzustellen, dass die Daten während der Übertragung nicht gestohlen oder manipuliert werden. Überprüfen Sie das Serverzertifikat: Überprüfen Sie das Serverzertifikat im Client manuell, um sicherzustellen, dass es vertrauenswürdig ist. Der Server kann manuell durch die Delegate -Methode der URLSession überprüft werden

Wie man Debian Hadoop Log Management macht Wie man Debian Hadoop Log Management macht Apr 13, 2025 am 10:45 AM

Wenn Sie Hadoop-Protokolle auf Debian verwalten, können Sie die folgenden Schritte und Best Practices befolgen: Protokollaggregation Aktivieren Sie die Protokollaggregation: Set Garn.log-Aggregation-Enable in true in der Datei marn-site.xml, um die Protokollaggregation zu aktivieren. Konfigurieren von Protokoll-Retentionsrichtlinien: Setzen Sie Garn.log-Aggregation.Retain-Sekunden, um die Retentionszeit des Protokolls zu definieren, z. B. 172800 Sekunden (2 Tage). Log Speicherpfad angeben: über Garn.n

CentOS Shutdown -Befehlszeile CentOS Shutdown -Befehlszeile Apr 14, 2025 pm 09:12 PM

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.

See all articles