Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Der Autor dieses Artikels, Zhang Tianyu, studierte am Mila Artificial Intelligence Institute in Kanada und studierte bei Professor Yoshua Bengio, dem Gewinner des Turing Award . Die Hauptarbeit während der Promotionszeit konzentrierte sich auf multimodales, GFlowNet, Multi-Agent Reinforcement Learning und die Anwendung von KI im Klimawandel. Derzeit hat er Artikel auf führenden Konferenzen zum Thema maschinelles Lernen wie ICML, ICLR und ICASSP veröffentlicht. Dargestellt als umfangreiches kontrastives Sprach-Audio-Vortraining mit Feature Fusion und Keyword-to-Caption Augmentation (CLAP).
Um das ultimative Ziel der allgemeinen künstlichen Intelligenz (AGI) zu erreichen, muss zunächst erreicht werden, dass das Modell in der Lage sein muss, Aufgaben zu erledigen, die Menschen problemlos erledigen können. Um dies zu erreichen, lautet eine der wichtigsten Richtlinien für die Entwicklung großer Modelle: „Wie man Maschinen dazu bringt, wie Menschen zu denken und zu denken.“ Davon wurden Technologien wie Aufmerksamkeitsmechanismen und Chain-of-Thought inspiriert.
Vielen Menschen ist jedoch möglicherweise nicht bewusst, dass viele sehr einfache kognitive Aufgaben
für Menschen oft von sehr komplexen Denkprozessen begleitet sind. Versuchen Sie als Beispiel, die blockierten Textlücken basierend auf dem Bild unten auszufüllen: (Richtige Antwort: Forscher für maschinelles Lernen aus der ganzen Welt sind von der neuen GPU begeistert. Ihre hochmodernen Funktionen können auch Large ermöglichen -Experimente im Maßstab sind effizienter und kostengünstiger, selbst wenn sie so groß wie ein Herd sind . Um aus dem freigelegten Teil des Textes auf den vollständigen Text zu schließen, ist jedoch immer noch ein sehr komplexer Denkprozess erforderlich: Aktuelle neurowissenschaftliche Forschungen zeigen, dass die Wiederherstellung von „teilweise verdeckten Objekten“ ein hohes Maß an Beteiligung des präfrontalen Kortex erfordert, der zu Entscheidungen auf hoher Ebene fähig ist -Herstellung.
Wir wissen, dass die aktuellen visuellen Sprachmodelle (Vision-Language Models, VLM) Objekterkennung und Texterkennung sehr genau durchführen können. Wenn es sich bei dem verdeckten Teil jedoch um Text handelt, wenn die optische Zeichenerkennung (OCR) des Modells fehlschlägt und die einzige Schlüsselinformation nur wenige Pixel des verdeckten Textes sind, kann das Modell dann den menschlichen Denkprozess simulieren, um diese Aufgabe abzuschließen? Zu diesem Zweck hat das Team des Turing-Award-Gewinners
eine neue visuelle Frage- und Antwortaufgabe vorgeschlagen:
Visual Caption Restoration (VCR). Nutzen wir diese Aufgabe, um die Argumentationsfähigkeiten visueller Sprachmodelle zu untersuchen:
Wie weit sind die aktuellen visuellen Sprachmodelle von der menschlichen kognitiven Ebene entfernt?
- Papiertitel: VCR: Visual Caption Restoration
- Papierlink: arxiv.org/abs/2406.06462
- Code-Repository: github.com/tianyu-z/VCR (Klicken Sie hier, um den Originaltext direkt zu lesen Zugriff, einschließlich Überprüfung des Datengenerierungscodes für Modellbewertung und Vortraining)
- Hugging Face-Link: Huggingface.co/vcr-org
Für die Entwicklung der VCR-Aufgabe entwickelten die Forscher einen Prozess zur Generierung von VCR-Kompositbildern aus Bildern und Text. In diesem Prozess können Sie die Sichtbarkeit des Textes im Bild ändern, indem Sie „die Größe des weißen Rechtecks steuern, das den Text bedeckt“ und so „die Schwierigkeit der Aufgabe steuern“. Mit diesem Datengenerierungsprozess generierten die Forscher den VCR-Wiki
-Datensatz über das Wikipedia-Hauptbild-Einführungspaar . Für beide Sprachen gibt es zwei Schwierigkeitsstufen: „Einfach“ und „Schwer“. Darunter:
„Einfache“ schwierige VCR-Aufgabe kann das OCR-Modell ungültig machen ; -
Behalten Sie nur 1-2 oben und unten für jeden verdeckten Text bei Pixel
, ermöglicht aber dennoch Benutzern der entsprechenden Sprache, die Aufgabe abzuschließen.
In jeder Sprache und jedem Schwierigkeitsgrad gibt es 5000 Beispiele im Testsatz und Validierungssatz, und die restlichen Beispiele befinden sich im Trainingssatz. Abbildung: Von links nach rechts: einfache Schwierigkeit auf Englisch, Schwierigkeit auf Englisch, Einfachheit auf Chinesisch und Schwierigkeit auf Chinesisch. Das Beispiel am Anfang des Artikels ist nur eine kleine Herausforderung für den Menschen Das ultimative Niveau des Menschen bei der Bewältigung dieser Aufgabe sowie das Denken und die Fähigkeiten, die Menschen bei der Lösung von Problemen einsetzen. Unten sehen Sie eine Beispiel-VCR-Mission im Schwierigkeitsgrad „Schwer“. Die Leser können sich stärker darauf konzentrieren, die leeren Textlücken unter sich zu füllen. (Richtige Antwort: Die Große Abhandlung, eine von Ptolemaios im antiken Griechenland um 140 n. Chr. zusammengestellte Abhandlung über Mathematik und Astronomie, die die komplexen Bewegungsbahnen von Sternen und Planeten vorschlug. Bis zum Mittelalter und der frühen Renaissance war die Das im Buch vorgeschlagene geozentrische Modell wurde vom Islam und Europa übernommen...)Wie vervollständigen Menschen teilweise verdeckte Texte? In der Pädagogik und Kognitionswissenschaft gibt es ein Konzept namens Meta-Kognition. Beim Entwerfen von KI können wir Menschen als Lehrer die „Überwachung unserer eigenen Denkprozesse“ als Referenz nutzen, um Schülern, die als Vorbilder dienen, dabei zu helfen, ihre Lerneffizienz zu verbessern. Daher kann es für die Modellkonstruktion aufschlussreich sein, darüber nachzudenken, „wie Menschen Videorecorder-Aufgaben erledigen“.
Das Bild unten zeigt als Referenz eine der Problemlösungsideen des Autors für die VCR-Aufgabe:
Es scheint, als gäbe es viele Schritte, aber tatsächlich werden Informationen ständig durch verschiedene Schritte abgerufen Bereiche
und dann wiederholt überprüfen , um das Konfidenzniveau der Antworten zu erhöhen. Als ich das Bild zum ersten Mal sah, hatte ich nur eine vage Vermutung im Kopf. Während ich die Bilder weiter las, um neue Informationen zu erhalten, verifizierte ich die Vermutung nach und nach. Wenn Sie nach dem Lesen beginnen, die Lücken auszufüllen, hören Sie immer noch nicht auf, verschiedene Aspekte der Informationen zu vergleichen, um Ihre Antworten zu bestätigen. Wenn die „Hypothese“ nicht mit anderen Informationen übereinstimmt, wird die „Hypothese“ aufgehoben und es wird erneut eine neue Hypothese versucht.
Ergebnisse der menschlichen BewertungWie gut sind Menschen bei Videorecorder-Aufgaben? Die Abbildung unten zeigt die Genauigkeit von Muttersprachlern oder fließenden Benutzern jeder Sprache in Englisch/Chinesisch bei einfachen/schweren Einstellungen:
Wenn Fehler wie Zeit, Ortsnamen und Personennamen berücksichtigt werden, Die durchschnittliche Genauigkeit von Chinesisch im einfachen Schwierigkeitsgrad beträgt etwa 98,58 % und die durchschnittliche Genauigkeit von Chinesisch im schweren Schwierigkeitsgrad beträgt etwa 91,84 %. Wenn man diese Fehler aufgrund von Zeit, Orts- und Personennamen ausschließt, erreicht der Mensch im einfachen Chinesisch-Schwierigkeitsgrad fast die volle Punktzahl, und die Genauigkeitsrate im Schwierigen Chinesisch-Schwierigkeitsgrad hat ebenfalls 96,63 % erreicht. Wie man sieht, ist die VCR-Aufgabe für den Menschen sehr einfach. Ergebnisse bestehender ModelleDer Autor hat die „All-Star-Reihe“ getestet: Claude 3 Opus, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o, GPT-4 Turbo, Qwen-VL - Max, Reka Core und einige der derzeit leistungsstärksten Open-Source-Modelle. Die folgende Abbildung zeigt die Leistung jedes Modells auf dem einfachen Schwierigkeitsgrad von VCR-Wiki Chinesisch:
Die roten Box-Messindikatoren umfassen Vertreter einschließlich Bild (VI) und Text im Bild ( TEI) Die beiden Teile werden als Kontextinformationen verwendet, und das Modell kann die Genauigkeit des verdeckten Textes wiederherstellen. Das blaue Kästchen zeigt an, dass nur der Text im Bild (TEI) als Kontextinformation enthalten ist und das Bild (VI) nicht enthalten ist. Das Modell kann die Genauigkeit des abgedeckten Texts wiederherstellen.
Die Ergebnisse zeigen, dass:
- Die überwiegende Mehrheit der Modelle diese Aufgabe derzeit nicht bewältigen kann;
- Die überwiegende Mehrheit der Modelle nutzt Bildinformationen nicht sinnvoll aus , nicht aufgrund von Bildinformationen (VI) Und die Genauigkeit verbessern.
Auf der Schwierigkeitsstufe Chinesisch Schwer geriet das Modell in größere Schwierigkeiten. Der beste Performer ist GPT-4o, aber seine Genauigkeit beträgt nur 2,2 %. Mit Ausnahme von CogVLM2-Chinese und Qwen-VL-Max liegt die Genauigkeit der meisten Modelle nahe bei 0 %. Es ist zu beobachten, dass es dem Originalmodell im harten Modus schwer fällt, diese Frage mit einer signifikanten Geschwindigkeit richtig zu beantworten, geschweige denn, in die Nähe von Menschen zu kommen. Englische VCR-BewertungsergebnisseDer Autor hat auch die derzeit besten Open-Source- und Closed-Source-Modelle für visuelle Sprache im englischen VCR-Wiki getestet. Bevor Sie die Testergebnisse anzeigen, schauen Sie sich bitte zwei Beispiele der englischen VCR-Wiki-Aufgabe an: Einfaches englisches Beispiel:
(Richtige Antwort: Da das United States Post Office 1847 seine erste Briefmarke herausgab, Es wurden über 4.000 Briefmarken herausgegeben und über 800 Personen abgebildet...) Englisch-Schwierigkeitsbeispiel:
(Richtige Antwort: Lincoln ist die Luxusfahrzeugsparte des amerikanischen Automobilherstellers Ford. Vermarktet unter den Top-Luxusfahrzeugmarken in den Vereinigten Staaten, für...)Die im Artikel gezeigten Testergebnisse des englischen VCR-Wiki lauten wie folgt:
Wenn man sich die Gesamtergebnisse ansieht, schneidet das Modell sowohl im einfachen Englischmodus als auch im schwierigen Modus besser ab als Chinesisch. Dieses Ergebnis steht im Widerspruch zu unserer allgemeinen Intuition, dass „aufgrund der speziellen modularen Konfiguration unvollständiges Chinesisch eher vervollständigt wird“. Vielleicht liegt das daran, dass Englisch während des Vorschulungsprozesses in Bezug auf Datenvolumen und Datenqualität größere Vorteile hat als Chinesisch. Unter den vielen getesteten Modellen ist GPT-4o das beste unter den Closed-Source-Modellen und CogVLM2 das beste unter den Open-Source-Modellen. Ein sehr interessantes Phänomen ist, dass das Hinzufügen von Bildern CogVLM2 erheblich geholfen hat (plus 20,3 % im harten Modus), während die Ergebnisse für GPT-4o zurückgegangen sind. Beim chinesischen Test gibt es ein ähnliches Phänomen. Der Autor geht davon aus, dass dies an der Struktur des Modells liegt. Für spezifische Details können Leser gerne auf die Artikel und Codes der CogVLM-Reihe verweisen. Darüber hinaus erzielen Closed-Source-Modelle im Allgemeinen bessere Ergebnisse als Open-Source-Modelle, was möglicherweise auf bessere Trainingsstrategien oder mehr Modellparameter zurückzuführen ist. Dennoch stand das Modell in der „schwierigen“ Umgebung vor großen Herausforderungen. Obwohl Open-Source-Modelle die „einfache“ Einstellung teilweise erfüllen können, sind die meisten Open-Source-Modelle in der schwierigen Umgebung nicht in der Lage, diese für den Menschen sehr einfache Aufgabe zu erfüllen. Einführung in verwandte AufgabenDie Visual Question Answering (VQA)-Aufgabe erfordert, dass das Modell Freiformantworten basierend auf Eingabebildern und Fragen in natürlicher Sprache generiert. Die Bewertung von VQA ist eine große Herausforderung, da es keine einheitliche Standardantwort gibt. Traditionelle VQA-Methoden konzentrieren sich hauptsächlich auf die direkte Abfrage sichtbarer Elemente im Bild, ohne die komplexe Beziehung zwischen dem im Bild eingebetteten Textinhalt und dem gesamten Bildkontext einzubeziehen. Bei einigen VQA-Bewertungen, bei denen Text einen großen Teil der Informationen im Bild ausmacht, kann das visuelle Modul des Modells die Aufgabe möglicherweise sogar erledigen, ohne sich überhaupt an das Sprachmodul anzupassen. Diese Art von Prozess ist: Das Bild wird in das visuelle OCR-Modul eingegeben, und das visuelle OCR-Modul gibt die Zeicheninformationen im Bild aus und verwendet diese als Kontext für die Eingabe in das Sprachmodul. Dadurch degeneriert die VQA-Aufgabe zu einer QA-Aufgabe, die keine Bildinformationen benötigt. Die für die ursprünglich verglichenen verschiedenen VLMs erforderlichen visuellen Ausrichtungsfunktionen für Module wurden ignoriert, während die OCR-Funktionen geschätzt wurden. Aufgaben zur optischen Zeichenerkennung (OCR) geben normalerweise die vollständigen Zeichen im Bild ein und geben einen Zeichenfolgentext aus, der die Zeichen im Bild darstellt, unabhängig vom Bildkontext. Vorab trainierte OCR-Modelle sind in der Lage, eingebetteten Text aus Eingabebildern zu extrahieren, selbst wenn der Text unvollständig oder verschwommen ist. Allerdings je mehr Textbestandteile verschwimmen oder verdeckt werden, desto schwieriger wird es, den Originaltext nur anhand des sichtbaren Teils wiederherzustellen, und OCR-Methoden sind in diesem Fall nur begrenzt wirksam. Es ist ersichtlich, dass es keine Standardantwort auf die VQA-Aufgabe gibt und die Bewertung der Qualität der Modellantworten noch eine offene Frage ist. Für die Ausführung der OCR-Aufgabe ist kein Kontext erforderlich, und es ist nicht möglich zu testen, ob das Modell tatsächlich gelernt hat, die Informationen im Kontext zu nutzen. Unverzichtbar für die VCR-Aufgabe . Die einzigartige Herausforderung der VCR-Aufgabe besteht darin, dass das Modell eine präzise Ausrichtung zwischen visuellen und Textinformationen erreichen muss
, was in scharfem Kontrast zur einfachen Textextraktionsaufgabe von OCR steht. Bei der OCR geht es vor allem darum, sichtbare Zeichen zu erkennen, ohne deren kontextuelle Relevanz in der Bilderzählung zu verstehen. Im Gegensatz dazu erfordert VCR, dass Modelle gemeinsam verfügbare Teiltexthinweise auf Pixelebene und visuellen Kontext nutzen, um verdeckte Inhalte genau zu rekonstruieren. Dies testet nicht nur die Fähigkeit des Modells, eingebetteten Text und visuelle Elemente zu verarbeiten, sondern auch seine Fähigkeit, die interne Konsistenz aufrechtzuerhalten, ähnlich den kognitiven Prozessen, durch die Menschen Kontext und visuelle Hinweise verstehen und darauf reagieren. Im Gegensatz zu VQA haben VCR-Aufgabenfragen eine eindeutige Antwort, wodurch die Bewertung durch Genauigkeit durchgeführt werden kann und die Bewertungsmetriken klarer werden.
- Durch Anpassen des Deckungsverhältnisses des Textes können Sie den Schwierigkeitsgrad der Aufgabe steuern und so eine reichhaltige Testumgebung bereitstellen. Wie die OCR-Aufgabe kann auch die VCR-Aufgabe als Trainingsaufgabe für VLM dienen. Der Autor ist Open-Source-Transformationscode, der für jedes gegebene Bild-Text-Paar ein VCR-Aufgabendiagramm generieren kann.
Die in diesem Artikel vorgeschlagene Visual Caption Recovery (VCR)-Aufgabe deckt auf clevere Weise die Einschränkungen der Bild-Text-Ausrichtung bestehender Modelle durch eine scheinbar einfache Untertitel-Wiederherstellungsaufgabe sowie Unterschiede in der Argumentation auf Fähigkeiten zwischen Modellen und Menschen bei kognitiven Aufgaben auf hohem Niveau. Es wird davon ausgegangen, dass diese Aufgabe in Zukunft zu effektiveren VLM-Trainings-, Bewertungs- und Inferenzmethoden führen und die Lücke zwischen multimodalen Modellen und menschlichen kognitiven Fähigkeiten weiter schließen kann. Das obige ist der detaillierte Inhalt vonDas Bengio-Team schlägt einen neuen multimodalen Benchmark vor, der auf die Schwächen von Claude 3.5 und GPT-4o abzielt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!