Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team-KI-php.cn

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

PHPz

Freigeben： 2023-10-19 11:13:01

nach vorne

1609 Leute haben es durchsucht

GPT-4V zur Zielerkennung? Aktueller Test durch Internetnutzer: Noch nicht fertig.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Während die erkannten Kategorien in Ordnung sind, sind die meisten Begrenzungsrahmen falsch platziert.

Es spielt keine Rolle, jemand wird Maßnahmen ergreifen!

Der Mini GPT-4, der GPT-4 in der Bildbetrachtungsfähigkeit um mehrere Monate übertrifft, wurde aktualisiert – MiniGPT-v2.

△ (GPT-4V wird links generiert und MiniGPT-v2 wird rechts generiert)

Und es ist nur ein einfacher Befehl: [Erdung] beschreiben Sie dieses Bild im Detail, um das Ergebnis zu erzielen.

Darüber hinaus kann es auch verschiedene visuelle Aufgaben problemlos bewältigen.

Kreisen Sie ein Objekt ein und fügen Sie [identifizieren] vor dem Eingabeaufforderungswort hinzu, damit das Modell den Namen des Objekts direkt identifizieren kann.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Natürlich können Sie auch nichts hinzufügen und einfach fragen~

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

MiniGPT-v2 besteht aus dem ursprünglichen Team von MiniGPT-4 (KAUST King Abdullah University of Science and Technology in Saudi-Arabien) und fünf Forscher von Meta gemeinsame Entwicklung.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Das letzte Mal erregte MiniGPT-4 große Aufmerksamkeit, als es herauskam, und der Server war eine Zeit lang überlastet. Jetzt hat das GitHub-Projekt mehr als 22.000 Sterne erreicht.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Mit diesem Upgrade haben einige Internetnutzer bereits damit begonnen, es zu verwenden~

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Eine universelle Schnittstelle für mehrere visuelle Aufgaben

Als universelle Schnittstelle für verschiedene Textanwendungen hat sich jeder daran gewöhnt. Davon inspiriert möchte das Forschungsteam eine einheitliche Schnittstelle erstellen, die für eine Vielzahl visueller Aufgaben wie Bildbeschreibung, visuelle Beantwortung von Fragen usw. verwendet werden kann.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

„Wie kann man mit einfachen multimodalen Anweisungen verschiedene Aufgaben unter der Bedingung eines einzigen Modells effizient erledigen?“ ist zu einem Problem geworden, das das Team lösen muss.

Um es einfach auszudrücken: MiniGPT-v2 besteht aus drei Teilen: visuellem Rückgrat, linearer Ebene und großem Sprachmodell.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Das Modell basiert auf dem visuellen Rückgrat von ViT und bleibt in allen Trainingsphasen unverändert. Vier benachbarte visuelle Ausgabetoken werden von ViT induziert und über lineare Schichten in den LLaMA-2-Sprachmodellraum projiziert.

Das Team empfiehlt die Verwendung eindeutiger Kennungen für verschiedene Aufgaben im Trainingsmodell, damit große Modelle jede Aufgabenanweisung leicht unterscheiden und die Lerneffizienz jeder Aufgabe verbessern können.

Das Training ist hauptsächlich in drei Phasen unterteilt: Vortraining – Multitasking-Training – Anpassung der Multi-Mode-Anweisungen.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Am Ende übertraf MiniGPT-v2 andere allgemeine Modelle der visuellen Sprache in vielen Benchmarks zur Beantwortung visueller Fragen und zur visuellen Erdung.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Letztendlich kann dieses Modell eine Vielzahl visueller Aufgaben erledigen, wie z. B. Zielobjektbeschreibung, visuelle Lokalisierung, Bildbeschreibung, visuelle Beantwortung von Fragen und direktes Parsen von Bildobjekten aus gegebenem Eingabetext.

Die visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team

Interessierte Freunde können auf den Demo-Link unten klicken, um es zu erleben:

https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/ MiniGPT -v2

Papierlink: https://arxiv.org/abs/2310.09478

GitHub-Link: https://github.com/Vision-CAIR/MiniGPT-4

Das obige ist der detaillierte Inhalt vonDie visuellen Fähigkeiten des überaus beliebten Mini-GPT-4 sind sprunghaft angestiegen, mit 20.000 Sternen auf GitHub, produziert von einem chinesischen Team. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!