Dieses Papier wurde von CVPR2023 angenommen.
GPT-4, das Bilder lesen kann, wurde veröffentlicht! Aber man muss sich anstellen, um es nutzen zu können. . .
Warum probieren Sie das nicht zuerst aus?
Fügen Sie ein kleines Modell hinzu. Sie können große Sprachmodelle wie ChatGPT und GPT-3 erstellen, die nur Text leicht verstehen, Bilder lesen und alle Arten von kniffligen Details lösen können Kann mit einer Hand gekniffen werden. Und das Training dieses kleinen Modellskann mit einer einzigen Karte (einer RTX 3090) durchgeführt werden.
Für die Wirkung schauen Sie sich einfach das Bild an. Geben Sie beispielsweise ein Bild einer „Musikszene“ in den trainierten GPT-3 ein und fragen Sie ihn: Welche Aktivitäten finden am Tatort statt?
Ohne zu zögern gab GPT-3 die Antwort aufKonzert.
Um es schwieriger zu machen, geben Sie GPT-3 ein Foto von Jiang Zi und lassen Sie es erkennen, um welche Art von Material es sich bei dem Vorhang auf dem Foto handelt.
GPT-3:Spitze.
Bingo! (Es sieht so aus, als wäre etwas an ihm) Diese Methode ist die neueste Errungenschaft eines Teams der Hangzhou University of Electronic Science and Technology und der Hefei University of Technology:
ProphetSie haben diese Arbeit vor einem halben Jahr begonnen.
Der erste Autor der Arbeit ist der Absolvent der Hangzhou Dianzi University, als er 1 Jahr alt war. Er verpasste leider die Zhejiang University und entschied sich für die Hangzhou Dianzi University. das in der Nähe von zu Hause liegt. Dieses Papier wurde von CVPR2023 angenommen.
Erzielung neuer SOTA bei modalübergreifenden AufgabenSchauen wir uns ohne weitere Umschweife direkt die Bildlesefunktionen von GPT-3 mit Unterstützung der Prophet-Methode an.
Das Forschungsteam testete Prophet anhand von zwei visuellen Frage- und Antwortdatensätzen, die auf externem Wissen basierten, OK-VQA und A-OKVQA, und beide erstellten „neues SOTA“.
Genauer gesagt erreichte Prophet im OK-VQA-Datensatz im Vergleich zu Deepminds großem Flamingo-Modell mit 80B-Parametern eine Genauigkeit von 61,1 % und schlug damit erfolgreich Flamingo (57,8 %).
Und auch hinsichtlich der benötigten Rechenleistungsressourcen „schlägt“ Prophet Flamingo.Flamingo-80B muss
15 Tageauf
1536 TPUv4-Grafikkartentrainiert werden, während Prophet nur
eine RTX-3090-Grafikkartebenötigt, um das VQA-Modell 4 Tage zu trainieren und dann die OpenAI-API aufzurufen bestimmte Anzahl von Malen. Tatsächlich wurden Methoden wie Prophet bereits früher verwendet, um GPT-3 bei der Bewältigung modalübergreifender Aufgaben wie PICa und später KAT und REVIVE zu unterstützen.
Allerdings kann es sein, dass sie mit einigen Details nicht zufriedenstellend umgehen können.Geben Sie mir eine Kastanie, lassen Sie sie gemeinsam das Bild unten lesen und beantworten Sie dann die Frage: Welche Art von Früchten wird der Baum auf dem Bild tragen?
Die einzige Information, die PICa, KAT und REVIVE aus dem Bild extrahiert haben, ist: eine Gruppe von Menschen, die über den Platz gehen, völlig ignorierend, dass sich dahinter eine Kokospalme befindet. Die endgültige Antwort kann nur erraten werden. Mit Prophet wird diese Situation nicht eintreten. Es löst das Problem unzureichender Bildinformationen, die mit der oben genannten Methode extrahiert werden, und stimuliert das Potenzial von GPT-3 weiter. Wie macht Prophet das? Kleines Modell + großes ModellUm dies zu erreichen, verlässt sich Prophet auf sein einzigartiges
zweistufiges Framework.
Zunächst trainierte das Forschungsteam in der ersten Phase ein verbessertes MCAN-Modell (ein VQA-Modell) anhand eines spezifischen externen Wissens-VQA-Datensatzes.
Extrahieren Sie nach dem Training des Modells zwei heuristische Antworten daraus: Antwortkandidaten und antwortbewusste Beispiele.
Unter diesen werden Antwortkandidaten basierend auf dem von der Modellklassifizierungsschicht ausgegebenen Konfidenzniveau sortiert und die Top 10 ausgewählt.
Antwortbewusstseinsbeispiel bezieht sich auf die Verwendung der Merkmale vor der Modellklassifizierungsschicht als potenzielle Antwortmerkmale der Stichprobe, der am ähnlichsten gekennzeichneten Stichprobe in diesem Merkmalsraum.
Der nächste Schritt ist die zweite Stufe. Dieser Schritt ist relativ einfach und grob.
Organisieren Sie die im vorherigen Schritt erhaltenen „inspirierenden Antworten“ in Eingabeaufforderungen, geben Sie die Eingabeaufforderungen dann in GPT-3 ein und vervollständigen Sie die visuellen Fragen und Antworten unter bestimmten Eingabeaufforderungen.
Obwohl im vorherigen Schritt einige Antworthinweise gegeben wurden, bedeutet dies nicht, dass GPT-3 auf diese Antworten beschränkt ist.
Wenn die Zuverlässigkeit der durch die Eingabeaufforderung gegebenen Antwort zu gering ist oder die richtige Antwort nicht in diesen Eingabeaufforderungen enthalten ist, ist es für GPT-3 durchaus möglich, eine neue Antwort zu generieren.
Natürlich muss neben den Forschungsergebnissen auch das Team hinter dieser Studie erwähnt werden.
Der erste AutorShao Zhenwei wurde mit „Progressiver spinaler Muskelatrophie“ diagnostiziert. Es handelt sich um eine Behinderung ersten Grades der Gliedmaßen. Er braucht alles Fürs Leben und Studium kümmerte er sich um seine Mutter.
Trotz seiner körperlichen Einschränkungen hat Shao Zhenweis Wissensdurst jedoch nicht nachgelassen.
Bei der Hochschulaufnahmeprüfung 2017 erzielte er eine hohe Punktzahl von 644 Punkten und wurde mit dem ersten Platz in das Hauptfach Computer der Hangzhou University of Electronic Science and Technology aufgenommen.
Während dieser Zeit gewann er auch Auszeichnungen wie den Chinese College Student Self-improvement Star 2018, das National Scholarship 2020 und den Outstanding Graduate der Zhejiang Province 2021.
Bereits während seines Grundstudiums hatte Shao Zhenwei begonnen, bei Professor Yu Zhou wissenschaftliche Forschungsaktivitäten durchzuführen.
Im Jahr 2021 hatte Shao Zhenwei eine zufällige Begegnung mit der Zhejiang-Universität, als er sich auf die Beförderung zur Graduiertenschule vorbereitete, also blieb er an der Schule und schloss sich der Forschungsgruppe von Professor Yu Zhou an, um einen Master-Abschluss zu machen Jahr der Graduiertenschule, und seine Forschungsrichtung ist modalübergreifendes Lernen.
Professor Yu Zhou ist der zweite Autor und korrespondierende Autor dieser Forschungsarbeit. Er ist der jüngste Professor an der School of Computer Science der Hangzhou Dianping University und stellvertretender Direktor des Labors „Complex System Modeling and Simulation“. Ministerium für Bildung.
Yu Zhou ist seit langem auf die Richtung „multimodale Intelligenz“ spezialisiert und hat das Forschungsteam viele Male zum Gewinn der Meisterschaft und des zweiten Platzes im internationalen visuellen Frage-Antwort-Wettbewerb VQA Challenge geführt.
Die meisten Mitglieder des Forschungsteamssind im Hangzhou Electronics Media Intelligence Laboratory (MIL). Das Labor wird von Professor Yu Jun geleitet, einem landesweit herausragenden Wissenschaftler. In den letzten Jahren hat das Labor eine Reihe hochrangiger Konferenzbeiträge (TPAMI, IJCV, CVPR usw.) veröffentlicht, die sich auf multimodales Lernen konzentrieren. und hat mehrfach die beste Auszeichnung bei IEEE-Journalkonferenzen gewonnen.
Das Labor war Gastgeber von mehr als 20 nationalen Projekten wie dem National Key R&D Plan und der National Natural Science Foundation of China. Es hat den ersten Preis des Zhejiang Province Natural Science Award und den zweiten Preis des Educational Natural Science Award gewonnen.
Das obige ist der detaillierte Inhalt vonDer Typ von Hangzhou Electronics ist der erste, der die GPT-Bildlesefunktion erhält. Eine einzige Karte kann den neuen SOTA-Code realisieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!