


GPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser' beträgt die Genauigkeitsrate nur 33 %
GPT-4s Fähigkeit zum grafischen Denken ist weniger als halb so groß wie die des Menschen?
Eine Studie des Santa Fe Research Institute in den Vereinigten Staaten zeigt, dass die Genauigkeit von GPT-4 für Fragen zum grafischen Denken nur 33 % beträgt.
GPT-4v verfügt über multimodale Fähigkeiten, aber seine Leistung ist relativ schlecht und kann nur 25 % der Fragen richtig beantworten
△Die gepunktete Linie stellt die durchschnittliche Leistung von 16 Aufgaben dar
Sobald die Ergebnisse vorliegen Dieses Experiment wurde veröffentlicht und löste sofort eine breite Diskussion auf YC aus
Einige Internetnutzer, die dieses Ergebnis unterstützten, sagten, dass GPT bei der Verarbeitung abstrakter Grafiken nicht gut funktioniert und es schwieriger ist, Konzepte wie „Position“ und „Rotation“ zu verstehen
Einige Internetnutzer äußerten jedoch Zweifel an dieser Schlussfolgerung:
Obwohl diese Ansicht nicht als falsch bezeichnet werden kann, ist sie nicht völlig überzeugend
Was das Konkrete betrifft Aus Gründen lesen wir weiter.
Die Genauigkeit von GPT-4 beträgt nur 33 %
Um die Leistung von Menschen und GPT-4 bei diesen Grafikproblemen zu bewerten, verwendeten die Forscher den im Mai dieses Jahres veröffentlichten ConceptARC-Datensatz.
ConceptARC umfasst insgesamt 16 Unterkategorien Fragen zum grafischen Denken, 30 Fragen pro Kategorie, insgesamt 480 Fragen.
Diese 16 Unterkategorien umfassen Positionsbeziehungen, Formen, Operationen, Vergleiche usw.
Konkret bestehen diese Fragen aus Pixelblöcken. Menschen und GPT müssen anhand gegebener Beispiele Muster finden und die Ergebnisse der auf die gleiche Weise verarbeiteten Bilder analysieren.
Der Autor zeigt im Artikel speziell Beispiele für diese 16 Unterkategorien, eines für jede Kategorie.
Die Ergebnisse zeigten, dass die durchschnittliche Genauigkeitsrate von 451 menschlichen Probanden in jedem Unterpunkt nicht weniger als 83 % betrug und der Durchschnitt von 16 Aufgaben 91 % erreichte.
Wenn Sie eine Frage dreimal ausprobieren können (wenn Sie sie einmal richtig beantworten), beträgt die höchste Genauigkeit von GPT-4 (einzelne Stichprobe) nicht mehr als 60 % und der Durchschnitt liegt nur bei 33 %
Morgen: Vor einiger Zeit hat der Autor von ConceptARC Benchmark, der an diesem Experiment beteiligt war, auch ein ähnliches Experiment durchgeführt, aber der Null-Stichprobentest wurde in GPT-4 durchgeführt. Das Ergebnis war die durchschnittliche Genauigkeitsrate von 16 Aufgaben nur 19 %.
GPT-4v ist ein multimodales Modell, aber seine Genauigkeit ist gering. Bei einem kleinen ConceptARC-Datensatz, der aus 48 Fragen bestand, betrugen die Genauigkeitsraten von Nullstichprobentests und Einzelstichprobentests nur 25 % bzw. 23 %
Nach weiterer Analyse der falschen Antworten stellten die Forscher fest Einige menschliche Fehler scheinen wahrscheinlich auf „Nachlässigkeit“ zurückzuführen zu sein, während GPT die Regeln der Frage überhaupt nicht verstanden hat.
Die meisten Internetnutzer haben keine Zweifel an diesen Daten, aber was dazu führte, dass dieses Experiment in Frage gestellt wurde, war die Gruppe der rekrutierten Probanden und die dem GPT zur Verfügung gestellte Eingabemethode.
Die Methode der Probandenauswahl wurde in Frage gestellt.
Zu Beginn der Forschung wurden die Teilnehmer rekrutiert Themen auf einer Amazon-Crowdsourcing-Plattform.
Der Forscher extrahierte als Einführungstest einige einfache Fragen aus dem Datensatz. Die Probanden müssen mindestens zwei von drei zufälligen Fragen richtig beantworten, bevor sie am formellen Test teilnehmen können. Die von Forschern gefundenen Ergebnisse zeigen, dass manche Menschen den Aufnahmetest nur aus Geldgier absolvieren und die erforderlichen Fragen überhaupt nicht beantworten.
Als letzten Ausweg erhöht der Forscher
die Schwelle für die Teilnahme den Testbis zu dem Punkt, an dem er auf der Plattform abgeschlossen werden kann. Mindestens 2.000 Aufgaben bestehen und die Erfolgsquote muss 99 % erreichen. Obwohl der Autor die Erfolgsquote zur Überprüfung von Personen verwendet, gibt es im Hinblick auf spezifische Fähigkeiten, abgesehen von der Notwendigkeit, dass die Fächer Englisch sprechen müssen, „keine besonderen Anforderungen“ für andere berufliche Fähigkeiten wie Grafik
. Um Datenvielfalt zu erreichen, verlagerten die Forscher die Rekrutierungsbemühungen später im Experiment auf eine andere Crowdsourcing-Plattform. Am Ende nahmen insgesamt 415 Probanden an diesem Experiment teil
Einige Leute bezweifelten jedoch immer noch, dass die Proben im Experiment „
nicht zufällig genug“ seien.
Einige Internetnutzer wiesen darauf hin, dass es auf der Amazon-Crowdsourcing-Plattform, die von Forschern zur Rekrutierung von Probanden genutzt wird,
große Modelle gibt, die vorgeben, Menschen zu sein.
Die Bedienung der multimodalen Version von GPT ist relativ einfach. Geben Sie einfach das Bild direkt ein und verwenden Sie das entsprechende Eingabeaufforderungswort
.
Einige Leute sind mit dieser Operation nicht einverstanden: Nach der Konvertierung des Bildes in eine digitale Matrix
hat sich das Konzept völlig geändert Sogar Menschen, die durch Zahlen dargestellte „Grafiken“ betrachten, können das vielleicht nicht Verstehe es auch
Noch eine SacheZufälligerweise testete Joy Hsu, eine chinesische Doktorandin an der Stanford University, auch die Graphverständnisfähigkeit von GPT-4v an einem geometrischen Datensatz
Letztes Jahr wurde ein Datensatz erstellt veröffentlicht mit dem Ziel, Ihr Verständnis der euklidischen Geometrie anhand großer Modelle zu testen. Nachdem GPT-4v geöffnet wurde, testete Hsu den Datensatz erneut und stellte fest, dass die Art und Weise, wie GPT-4v Grafiken versteht, „völlig anders als die des Menschen“ zu sein scheint.
Papieradresse:
[2 ]https://arxiv.org/abs/2311.09247
Das obige ist der detaillierte Inhalt vonGPT-4 schneidet bei der Graphinferenz schlecht ab? Selbst nach dem „Ablassen von Wasser' beträgt die Genauigkeitsrate nur 33 %. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Das Konfigurieren der Firewall eines Debian -Mailservers ist ein wichtiger Schritt zur Gewährleistung der Serversicherheit. Im Folgenden sind mehrere häufig verwendete Firewall -Konfigurationsmethoden, einschließlich der Verwendung von Iptables und Firewalld. Verwenden Sie Iptables, um Firewall so zu konfigurieren, dass Iptables (falls bereits installiert) installiert werden:

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

In Debian -Systemen wird die Readdir -Funktion zum Lesen des Verzeichnisinhalts verwendet, aber die Reihenfolge, in der sie zurückgibt, ist nicht vordefiniert. Um Dateien in einem Verzeichnis zu sortieren, müssen Sie zuerst alle Dateien lesen und dann mit der QSORT -Funktion sortieren. Der folgende Code zeigt, wie Verzeichnisdateien mithilfe von Readdir und QSORT in Debian System sortiert werden:#include#include#include#include // benutzerdefinierte Vergleichsfunktion, verwendet für QSortIntCompare (constvoid*a, constvoid*b) {rettrcmp (*(*(*(

Die Schritte zur Installation eines SSL -Zertifikats auf dem Debian Mail -Server sind wie folgt: 1. Installieren Sie zuerst das OpenSSL -Toolkit und stellen Sie sicher, dass das OpenSSL -Toolkit bereits in Ihrem System installiert ist. Wenn nicht installiert, können Sie den folgenden Befehl installieren: sudoapt-getupdatesudoapt-getinstallopenssl2. Generieren Sie den privaten Schlüssel und die Zertifikatanforderung als nächst

Unter Verwendung von OpenSSL für die digitale Signaturüberprüfung im Debian -System können Sie folgende Schritte befolgen: Vorbereitung für die Installation von OpenSSL: Stellen Sie sicher, dass Ihr Debian -System OpenSSL installiert hat. Wenn nicht installiert, können Sie den folgenden Befehl verwenden, um es zu installieren: sudoaptupdatesudoaptininTallopenSSL, um den öffentlichen Schlüssel zu erhalten: Die digitale Signaturüberprüfung erfordert den öffentlichen Schlüssel des Unterzeichners. In der Regel wird der öffentliche Schlüssel in Form einer Datei wie Public_key.pe bereitgestellt

In Debian Systems ist OpenSSL eine wichtige Bibliothek für Verschlüsselung, Entschlüsselung und Zertifikatverwaltung. Um einen Mann-in-the-Middle-Angriff (MITM) zu verhindern, können folgende Maßnahmen ergriffen werden: Verwenden Sie HTTPS: Stellen Sie sicher, dass alle Netzwerkanforderungen das HTTPS-Protokoll anstelle von HTTP verwenden. HTTPS verwendet TLS (Transport Layer Security Protocol), um Kommunikationsdaten zu verschlüsseln, um sicherzustellen, dass die Daten während der Übertragung nicht gestohlen oder manipuliert werden. Überprüfen Sie das Serverzertifikat: Überprüfen Sie das Serverzertifikat im Client manuell, um sicherzustellen, dass es vertrauenswürdig ist. Der Server kann manuell durch die Delegate -Methode der URLSession überprüft werden

Wenn Sie Hadoop-Protokolle auf Debian verwalten, können Sie die folgenden Schritte und Best Practices befolgen: Protokollaggregation Aktivieren Sie die Protokollaggregation: Set Garn.log-Aggregation-Enable in true in der Datei marn-site.xml, um die Protokollaggregation zu aktivieren. Konfigurieren von Protokoll-Retentionsrichtlinien: Setzen Sie Garn.log-Aggregation.Retain-Sekunden, um die Retentionszeit des Protokolls zu definieren, z. B. 172800 Sekunden (2 Tage). Log Speicherpfad angeben: über Garn.n

Der Befehl centOS stilldown wird heruntergefahren und die Syntax wird von [Optionen] ausgeführt [Informationen]. Zu den Optionen gehören: -h das System sofort stoppen; -P schalten Sie die Leistung nach dem Herunterfahren aus; -r neu starten; -t Wartezeit. Zeiten können als unmittelbar (jetzt), Minuten (Minuten) oder als bestimmte Zeit (HH: MM) angegeben werden. Hinzugefügten Informationen können in Systemmeldungen angezeigt werden.
